Está en la página 1de 38

CURSO DE BIOESTADISTICA

Documento elaborado por:


Luis A. Villarroel del Pino
Magster en Estadstica
Instructor Asociado Departamento de Salud Pblica
Facultad de Medicina
P. Universidad Catlica de Chile

Pg.2
CURSO DE BIOESTADISTICA
I. Estadstica Descriptiva

L.Villarroel


Generalmente la investigacin cientfica en medicina est dirigida al estudio de una determinada
poblacin. Esta poblacin habitualmente la componen personas con cierta patologa o alguna
cualidad de inters.

Como generalmente no se puede estudiar toda la poblacin, es necesario tomar una muestra de
sta, estudiarla e inferir que los resultados que se obtienen de la muestra son representativos de
lo que se habra obtenido en la poblacin, si se hubiese estudiado.

Este proceso requiere el uso de la estadstica en dos etapas: primero, obtener una estadstica
descriptiva de los datos muestrales; segundo, hacer inferencias a la poblacin mediante
estadstica analtica.

Ambas etapas requieren seguir pasos en forma rigurosa, de modo que los resultados tengan
validez. En este primer captulo revisaremos los elementos necesarios para hacer una buena
estadstica descriptiva de los datos. En el segundo, revisaremos los test estadsticos que nos
permitan hacer inferencias a la poblacin.


DEFINICIONES

Poblacin y Muestra
Generalmente las inquietudes de investigacin nacen del desconocimiento que se tiene de alguna
poblacin de inters: personas que mueren a causa de un infarto, poblacin que sufre de
colelitiasis, afectados de cncer gstrico, nios con bajo peso de nacimiento, diabticos, etc.

Poblacin: "Es el Conjunto total de objetos o de personas, con algo en comn, de inters en un
estudio".

)Por qu no estudiar la poblacin completa?

i Problemas presupuestarios. Es de un alto costo hacer un censo.
ii Limitaciones de tiempo. Adems de que un estudio prolongado necesariamente debe
considerar cambios que se produzcan en las variables importantes a causa del tiempo.
iii Dificultad de acceso. No necesariamente dificultad geogrfica, sino de identificacin de
los individuos que componen la poblacin (ejemplo: poblacin de portadores de VIH).

Debido a estos problemas, debemos conformarnos con trabajar con una muestra de la poblacin
de inters.

Muestra: "Es un subconjunto de la poblacin en estudio. Subconjunto que es realmente
observado".

Pg.3

El objetivo, entonces, es trabajar con una muestra de la poblacin de inters, pero a la vez
queremos ganar informacin sobre la poblacin de la cual proviene. Es decir, deseamos que las
caractersticas de la poblacin se vean reflejadas en la muestra que obtengamos.

Para cumplir con lo anterior, la muestra seleccionada debe cumplir con ciertos requisitos.

-Debe ser una muestra aleatoria.
-Debe ser de un tamao mnimo.
-Debe ser una muestra representativa de la poblacin.

Una muestra es aleatoria cuando todas las personas u objetos de la poblacin tienen la misma
probabilidad de ser elegidos en la muestra.

Una muestra es de tamao mnimo adecuado cuando las inferencias que se puedan hacer en
base a sta tienen un error de estimacin acotado (generalmente, el error mximo aceptado es de
5%).

Una muestra es representativa de una poblacin cuando la o las caractersticas ms importantes
de la poblacin estn presentes en la misma proporcin o promedio en la muestra. Es decir, si la
poblacin tiene 30% de hombres y 70% de mujeres, esta proporcin se mantiene en la muestra.
Si la edad promedio de la poblacin es 50 aos, en la muestra se observa ms o menos lo mismo,
etc.

Si una muestra es aleatoria y de tamao adecuado, entonces esta suele ser adems
representativa de la poblacin de inters.

Ntese que la aleatoriedad y el tamao mnimo son elementos controlables (existen mtodos de
seleccin aleatoria de los datos y podemos calcular el tamao mnimo adecuado). En cambio, la
representatividad es una cualidad de la muestra obtenida.



MTODOS DE SELECCIN DE UNA MUESTRA ALEATORIA.

1. Muestreo Aleatorio Simple
Es una muestra en que cada sujeto u objeto tiene una probabilidad igual e ser seleccionado en la
muestra.

Las formas usuales de seleccionar una muestra aleatoria simple es mediante una tabla de
nmeros aleatorios o una lista de nmeros aleatorios generada por un computador. Tambin se
puede recurrir a una tmbola o una bolsa con papeles numerados para este tipo de muestreo.

Si se desea obtener una muestra aleatoria representativa de los alumnos de un colegio que tiene
800 alumnos en educacin bsica y 400 en media, de modo de ESTIMAR la edad promedio de
los alumnos de todo el colegio, )Es conveniente una muestra aleatoria simple?

Pg.4
2. Muestreo Estratificado
Es una muestra en que se divide primero la poblacin en estratos o grupos separados y luego se
obtiene una muestra aleatoria simple al interior de cada estrato.

El muestreo aleatorio estratificado es llamado proporcional (o con afijacin proporcional), si los
estratos estn presentes en la muestra en igual proporcin que en la poblacin. En ocasiones, si
un estrato presenta mucha variabilidad (o dispersin), es recomendable hacer un muestreo
proporcional al tamao de la variabilidad de cada estrato. Esta variante se denomina afijacin no
proporcional.


3. Muestreo Sistemtico.
Este mtodo es til cuando se cuenta con una poblacin ordenada de alguna forma conocida
(por ejemplo, por nmero de ficha, por fecha de ingreso al hospital, etc.).

Si "N" es el tamao de la poblacin, n" el tamao de la muestra, una muestra aleatoria
sistemtica es aquella donde se selecciona un sujeto al azar de entre los primeros k=N/n
pacientes en la poblacin ordenada, seleccionando luego cada k-simo dato hasta completar los
"n" necesarios en la muestra.

Por ejemplo, si la poblacin es de tamao N=5000 y se quieren n=200 casos en la muestra, se
deben seguir los siguientes pasos:

i Calcular k. En este caso, k=5000/200 = 25.
ii Seleccionar un sujeto al azar (muestreo aleatorio simple) de entre los primeros 25 casos
en la muestra ordenada.
iii Posteriormente, seleccionar un sujeto cada 25, contando desde el primer sujeto
seleccionado, hasta llegar al n-simo sujeto.




TIPOS DE VARIABLE.
Una vez tomada la muestra, cada sujeto que la compone ser caracterizado segn ciertas
cualidades o cantidades de inters. Cada una de estas caractersticas, como la edad, sexo, estado
civil, peso, etc., son denominadas variables.

Variable: "Caracterstica que puede tomar uno o ms valores en los elementos de la poblacin".

Nosotros nos abocaremos a estudiar slo variables aleatorias, para las cuales no es posible
anticipar su resultado, an cuando se intente controlar los dems factores que puedan afectarlas.
Visto de otra forma, si al mantener constantes las condiciones experimentales no es posible
predecir el valor de una variable, entonces se est frente a una variable aleatoria.

Todas las variables, con la sola excepcin de las usadas como variables de identificacin
(nombre, nmero de ficha clnica, etc.), se pueden clasificar en uno de los 3 grupos siguientes:


Pg.5

Nominal: Slo podemos clasificar sus valores en clases (o categoras), entre las cuales no se
puede establecer ningn ordenamiento sugerido por la magnitud de sus valores.
Ejemplos: Sexo, Estado Civil, Profesin, Actividad.

Ordinal: Sus valores se pueden clasificar en categoras y si bin no tienen magnitudes
asociadas, se pueden ordenar las clases.
Ejemplos: Nivel Socioeconmico, Apgar, Puntaje Apache de Gravedad cardaca.

Intervalar: Existe un orden natural en sus valores y es posible cuantificar la diferencia entre
dos valores intervalares. Generalmente tienen unidad de medida.

Una variable intervalar es discreta cuando slo puede tomar un conjunto
numerable de valores (por ejemplo: nmero de hijos); o bin es contnua si
puede tomar cualquier valor en un intervalo (por ejemplo.: peso, talla, IMC, etc).


Notas: (1) Una variable intervalar puede transformarse en ordinal o nominal construyendo
rangos para sta. Por ejemplo, el peso del recin nacido (intervalar), puede
expresarse tambin como:

Ordinal: Hasta 2000 grs, 2001-3000, 3001-4000, 4001-Ms.
Nominal: Bajo Peso (<3000 grs), No Bajo Peso (>=3000 grs).

(2) El tamao muestral que se requiere para describir y analizar una variable
intervalar suele ser mucho menor que el requerido para analizar una nominal u
ordinal.




Los Dos Tipos de Variables a Describir.
Un paso importante en el estudio del comportamiento de una o ms poblaciones, luego de tomar
una muestra aleatoria de cada una, consiste en describir adecuadamente estas muestras, de modo
que las medidas resumen que obtengamos reflejen bin el comportamiento poblacional.

La forma de describir las variables muestrales depende del TIPO al que pertenezca cada variable,
y para efecto de simplificar esta descripcin basta con considerar dos grandes tipos:

1. Variables Categricas. Incluye a todas las variables para las cuales no es posible (y no
tiene sentido) obtener su promedio. Incluye a las nominales (sexo, profesin, etc.), las
ordinales que slo tienen categoras ordenadas (Nivel socioeconmico, grado de dolor,
etc.) y las intervalares en rangos (como el peso de nacimiento en rangos).

2. Variables Numricas. Incluye a todas las variables para las cuales tiene sentido obtener
su promedio. Incluye a todas las intervalares (edad, peso, talla) y las ordinales
promediables (apgar, puntaje apache, etc).

Pg.6
DESCRIPCIN DE VARIABLES CATEGORICAS (NO PROMEDIABLES).

En este caso, las medidas resmen ms adecuadas son el nmero de casos y el porcentaje en
que se presenta cada categora de la variable.

Al usar un computador para obtener las medidas resumen, stas se presentan en una tabla de
frecuencias. Estas tablas son tambin tiles en presentaciones orales, aunque no as en
publicaciones.


Tablas de Frecuencias
Estas tablas sirven para resumir en forma ordenada el nmero de casos y porcentaje obtenido
para cada categora de una variable. Aunque hay muchas formas de tabular resultados, la
presentacin habitual de la tabla es la siguiente:

Nro.de Frecuencia Porcentaje
Variable Casos Relativa Porcentaje Acumulado

categora-1 n1 n1/n 100*n1/n 100*n1/n
categora-2 n2 n2/n 100*n2/n 100*(n1+n2)/n
: : : : :
categora-k nk nk/n 100*nk/n 100*(n1+..+nk)/n
n 1.0 100.0

La frecuencia relativa y el porcentaje muestran la misma informacin en diferente escala: la
frecuencia relativa vara entre 0 y 1 y el porcentaje entre 0 y 100%. El porcentaje acumulado se
usa cuando la variable tabulada est medida al menos a nivel ordinal.


Ejemplo: La siguiente datos son de una muestra de 12 recin nacidos: 5 que presentaron
alguna patologa de nacimiento y 7 sanos. Obtenga tablas de frecuencias de las
variables tabuladas. Use rangos para el peso del recin nacido: Hasta 3000 grs.;
3001-3300 grs.; y ms de 3300 grs.

Ident Sexo Patologa Peso Nac. Edad Gest
(M=Masc F=Fem) (S=Si N=No) (Gramos) (Semanas)

1 M S 2500 36
2 M N 3000 39
3 M N 3050 41
4 M S 2900 40
5 M S 2800 39
6 M S 2590 38
7 F N 3080 39
8 F N 3500 40
9 F N 3320 40
10 F S 3005 39
11 F N 3270 40
12 F N 3330 36
Nota: Cuando se tabula una variable en rangos no es necesario que stos tengan igual longitud.

Pg.7
A veces es ms til recurrir a intervalos de uso habitual en la literatura respecto al tema.

Para "k" intervalos de igual longitud, determine los valores mnimo y mximo de la
variable y calcule: Longitud= (Mximo - Mnimo)/k. Por ejemplo, si se quieren 3
intervalos de igual largo para el Peso RN, la longitud es: (3500-2500)/3=333.3.
Entonces, los intervalos son: 2500-2833; 2834-3167 y 3168-3500.

El problema de estos rangos es que se puede tener intervalos vacos o con cantidades de
datos muy desbalanceados.



Presentacin Grfica de Variables Categricas.
Las formas habituales de graficacin de una tabla univariada son:

Barras Simples: Son grficos de barras rectangulares cuya altura es proporcional al
porcentaje que de casos en cada categora o nivel de la variable. Si la
variable tiene muchas categoras, una alternativa es hacer el grfico con
barras horizontales en vez de verticales.

Si el grfico muestra una variable para una sola poblacin tambin puede
graficarse el nmero de casos en cada categora. Si es de dos o ms
poblaciones debe graficarse el porcentaje para poder hacer
comparaciones.

Grfico Circular: Tambin llamado Grfico Sectorial o Torta, es un crculo dividido en
porciones proporcionales al porcentaje de cada nivel respecto al total de
datos. Cada porcin se obtiene multiplicando las frecuencias relativas
por 360, obtenindose los grados para cada porcin de la torta.

Ejemplo: Grfico de distribucin porcentual del Peso RN obtenidos en la tabla de
frecuencias del ejemplo previo.


Peso del Recin Nacido
Hasta 3000
3001-3300
>3300

Pg.8
DESCRIPCIN DE VARIABLES NUMERICAS (PROMEDIABLES).

Si la variable es intervalar u ordinal promediable, la mejor forma de describirla es mediante
medidas que resuman la posicin y dispersin de los datos. Es decir, ahora necesitamos medidas
que indiquen el centro u otras posiciones importantes de la distribucin de la variable, adems
del grado de variabilidad respecto al valor central.


MEDIDAS DE POSICIN

Las medidas de posicin tienen como objetivo resumir en un solo valor las mediciones obtenidas
de una variable. Las ms importantes son las medidas de tendencia central, que tratan de ubicar
el centro de la distribucin, destacando el promedio aritmtico, la mediana y la moda.

Promedio Aritmtico
Este es el promedio de uso habitual en investigacin en medicina. Se simboliza 0 y se calcula
como la suma de las mediciones de la variable dividido por el nmero de observaciones.
Simblicamente se escribe como:


Ejercicio: Calcule la media aritmtica de los pesos de nacimiento segn patologa. Segn lo
observado, )Existe alguna relacin entre la patologa y el peso?



Mediana
La mediana es la observacin justo al centro de la muestra, cuando sta es ordenada en forma
ascendente. Se simboliza generalmente como Md y su forma de clculo es la siguiente:

1. Ordene los datos de menor a mayor.
2. Si el tamao muestral n es impar, ubique la observacin n/2 en la muestra ordenada. Este
valor corresponde a la mediana.
3. Si n es par, promedie las dos observaciones al centro de la muestra ordenada. Este valor
corresponde a la mediana.

La interpretacin de la mediana de una variable es que el 50% de los casos muestrales tienen
valores inferiores a la mediana y el otro 50% tiene valores superiores a sta.

Una importante caracterstica de la mediana es su poca sensibilidad ante valores extremos u
"outliers". En cambio, el promedio puede sufrir cambios de importancia que la alejen del centro
de los datos.

Ejercicio: Calcule la mediana del peso del recin nacido.

n
x x x
n
x
x
n
i
+ + +
= =

...
2 1
_

Pg.9
Moda o Modo
La moda es el valor observado con mayor frecuencia en una variable y es utilizada generalmente
cuando se tiene un gran conjunto de datos. Esta medida no es muy prctica cuando la variable es
intervalar, dado lo difcil que ocurran al menos dos casos con un mismo valor.




MEDIDAS DE DISPERSIN

Las medidas de posicin no son suficientes por s solas para describir el comportamiento de una
variable, ya que no nos dicen nada acerca de la variabilidad de los datos.

Las medidas de dispersin de uso habitual en medicina son el rango, la varianza, la desviacin
estndar y el error estndar.

Rango
Es la diferencia entre el valor m=aximo y mnimo de la variable. Por ejemplo, el peso del recin
nacido tiene un rango de 3500-2500=1000 gr. Es decir, la diferencia entre el mnimo y el
mximo es de 1000 gramos.

En ocasiones se opta por presentar los valores mnimo y mximo en vez del rango, ya que
aportan ms informacin sobre la dispersin de los datos.

El rango es muy sensible a outliers, ya que se construye justamente con los valores extremos.
Adems, el rango muestral siempre subestima al rango poblacional.


Varianza
Aunque no es la medida de dispersin ms usada, es necesario calcularla para obtener la
desviacin estndar.

Si x1, x2,...,xn son las n observaciones muestrales de la variable X, la varianza, simbolizada s5,
se define como:

Es decir, la varianza es una especie de promedio de las desviaciones cuadrticas de los datos con
respecto al promedio. La razn por la que la varianza es poco utilizada es que el resultado queda
expresado en la unidad de medida al cuadrado (por ejemplo, kg5, mts5, etc.), mientras que los
datos y el promedio estn expresados en la unidad de medida original.



Ejercicio: Calcule la varianza del peso del recin nacido. (Peso Promedio: 0 = 3028.75)

1
) (
2
_
2

=

n
x x
s
i

Pg.10
Id Peso x-0 (x-0)5
1 2500 -528.70 279576.56
2 3000 -28.75 826.56
3 3050 21.25 451.56
4 2900 -128.70 16576.56
5 2800 -228.70 52326.56
6 2590 -438.70 192501.56
7 3080 51.25 2626.56
8 3500 471.25 222076.56
9 3320 291.25 84826.56
10 3005 -23.75 564.06
11 3270 241.25 58201.56
12 3330 301.25 90751.56
= 1001306.25

Luego: s5 = 1001306.25/(12-1) = 91027.84 grs5



Desviacin Estndar
Esta es la medida de dispersin de mayor uso en investigacin cientfica y se deriva directamente
de la varianza.

Si x1, x2,...,xn son las n observaciones muestrales de la variable X, la desviacin estndar,
simbolizada s, se define como:

Ntese que si la varianza est en la unidad de medida al cuadrado, la desviacin estndar est en
la unidad de medida original de los datos.

Ejercicio: Calcule la desviacin estndar del peso del recin nacido.
s = %91027.84 = 301.7 grs.


En la descripcin de los resultados de un estudio generalmente se mencionan tres valores: el
nmero de casos (n), la media aritmtica (0) y la desviacin estndar (s). Por ejemplo, respecto al
peso del recin nacido se dice que con n=12 casos, el promedio fue 3028.7 grs. y la desviacin
estndar 301.7 grs.

Generalmente se escribe: 0=3028.7 grs. 301.7 grs (n=12 casos)
1
) (
2
_

=

n
x x
s
i

Pg.11
El valor obtenido para s no quiere decir que todos los datos se siten entre 0-s y 0+s. Las reglas
que s se cumplen son:

1. Sin importar la distribucin de los datos, al menos el 75% de los casos siempre se sita
entre 0-2s y 0+2s.

2. Si la distribucin de los datos es simtrica en torno al promedio, entonces:

-Aproximadamente el 68% de los casos se sita entre 0-s y 0+s
-Aproximadamente el 95% de los casos se sita entre 0-2s y 0+2s
-Aproximadamente el 99% de los casos se sita entre 0-3s y 0+3s



Error Estndar
El error estndar es til como medida de dispersin cuando se quieren presentar los resultados de
una misma variable para diferentes grupos poblacionales, ya que es una dispersin
estandarizada por el nmero de observaciones. El error estndar se calcula a partir de la
desviacin estndar, y se define como:

Error Estndar = e.s. = s/%n

Es decir, el error estndar es igual a la desviacin estndar dividido por la raz cuadrada del
nmero de observaciones.

Se usa generalmente cuando la desviacin estndar es muy grande y se quiere graficar el
comportamiento del promedio de una variable en una o ms poblaciones y sus respectivas
variabilidades.




OTRAS MEDIDAS DE POSICIN: PERCENTILES

Para cualquier variable intervalar, un percentil de orden p (0<p<100%) es un valor muestral que
deja el p% de los datos bajo ese valor y el (100-p)% de los datos restantes sobre l. El clculo de
percentiles requiere tener la muestra ordenada en forma ascendente segn la variable a describir.

Por ejemplo, el percentil 20% de una variable X corresponde al valor en la muestra que deja un
20% de los valores observados bajo el percentil y el 80% restante sobre el percentil.

En general, para calcular un percentil en una muestra ordenada de tamao "n", el valor Xp que
corresponde a ese percentil se encuentra en la posicin:

k = (n+1)*p/100

Es decir, si x(1),.., x(n) son los n valores ordenados de X, el percentil de orden p corresponde al

Pg.12
valor en la posicin x(k). Si k es un nmero entero, entonces x(k) queda perfectamente
determinado. Si k tiene decimales hay que aproximarlo al entero ms cercano. Si k tiene decimal
0.5 (3.5, 9.5, etc.), se promedian los valores superior e inferior a la posicin k (3 y 4; 9 y 10,
etc.).

Ejemplo: Calcule e interprete los percentiles 25 y 50 del peso del recin nacido.

* Los valores ordenador de peso de nacimiento son:
2500 2590 2800 2900 3000 3005 3050 3080 3270 3320 3330 3500

* Para calcular percentil 25: n=12 p=25. Luego, k = (12+1)*25/100 = 3.25
De esta forma, el percentil 25 corresponde a x(3) = 2800 grs

* Para calcular percentil 50: n=12 p=50. Luego, k = (12+1)*50/100 = 6.5
As, el percentil 50 corresponde a ( x(6)+x(7) )/2 = 3027.5

* Interpretacin: "El 25% de los recin nacidos tienen peso de nacimiento inferior a 2800
grs, mientras que el 50% tiene peso inferior a 3027 grs."



Algunos Percentiles Especiales
Los percentiles ms utilizados en medicina son los cuartiles, correspondientes a los percentiles
25%, 50% y 75%; los deciles, que dividen la muestra en grupos de 10%; y la mediana, que
corresponde al percentil 50%, al segundo cuartil o al quinto decil.

Adems, para construccin de patrones de normalidad se utilizan con frecuencia los percentiles
5%, 10%, 90% y 95%, de modo que datos muestrales que se sitan entre los percentiles 5 y 95 se
consideran "normales" y los casos bajo el percentil 5% o sobre el percentil 95% son considerados
"anormales" o "patolgicos".



NOTAS:
1. Si los datos presentan una dispersin moderada, la presentacin de los datos suele
hacerse usando el nmero de casos, promedio y desviacin estndar.
2. Si los datos presentan mucha dispersin (o hay valores extremos u outliers), de modo
que el promedio se ve distorsionado por estos valores, la presentacin de los datos se
hace usando el nmero de casos, mediana y rango.
3. En ocasiones, se usa la media geomtrica como alternativa al uso de la mediana, si hay
mucha dispersin (actualmente esta opcin se ha hecho muy popular), siempre
acompaada del nmero de casos y del rango como medida de dispersin.

Pg.13
Representacin Grfica de Variables Promediables.

Histograma:
Un histograma es un grfico de barras agrupadas que permite observar la distribucin de una
variable intervalar.

Si la variable es discreta (o discretizada), cada barra puede representar el porcentaje de casos que
toma cada valor de la variable. Si la variable es contnua, cada barra representa un intervalo de
valores. En este grfico los intervalos deben tener la misma longitud, de modo que las barras
muestren en forma proporcional el porcentaje que representa el intervalo en el total de datos.

Ejemplo: Construya un histograma para el peso RN. (Rangos de 2400-2600, 2601-2800,
2801-3000, 3001-3200, 3201-3400, 3401-3600 grs).




A medida que el tamao muestral aumenta, es posible hacer intervalos ms angostos de la
variable, para observar mejor la distribucin.. De esta forma, podremos observar el grado de
simetra de los datos, con tres posibilidades:

Simetra: Los datos se distribuyen en forma similar a ambos lados del
centro. En este caso el promedio aritmtico es igual a la mediana.

Asimetra a la izquierda: Los datos se concentran en menor proporcin a la izquierda del
punto central. En este caso el promedio es menor que la mediana.

Asimetra a la derecha: Los datos se concentran en menor proporcin a la derecha del
punto central. En este caso el promedio es mayor que la mediana.


Distribucin de Peso RN
2
1
2
3 3
1
0
1
2
3
4
2400-
2600
2601-
2800
2801-
3000
3001-
3200
3201-
3400
3401-
3600

Pg.14

Cajn con Bigotes (Box Plot)
Su objetivo es mostrar grficamente medidas de posicin, ya sea basado en el promedio y
desviacin estndar o en cuartiles. El grfico siguiente muestra un box plot para el peso del
recin nacido basado en percentiles.

---> Mximo = 3500 grs


---> Tercer Cuartil = 3320 grs


---> Mediana = 3027.5 grs


---> Primer Cuartil = 2800 grs


---> Mnimo = 2500 grs



El box plot es una caja en la que el borde inferior, la lnea media y el borde superior
corresponden al primer, segundo y tercer cuartil, respectivamente. Las lineas inferior y superior
unen la caja con los valores mnimo y mximo, respectivamente.

Si el grfico se hace con promedio y desviacin estndar, el borde inferior corresponde a 0-s, la
lnea media es 0 y el borde superios es 0+s.






Grfico de Promedio y Desviacin Estndar (o Error Estndar)
Este grfico es alternativo al cajn con bigotes hecho con el promedio y desviacin estndar. Se
usa principalmente cuando se grafica ms de una poblacin (o sea, ms de un promedio
desv.estndar), o cuando se grafica el promedio de una variable en el tiempo.

A continuacin se muestra el grfico del promedio y desviacin estndar del peso del recin
nacido segn patologa:
0-s 0+s
Con patologa: n=5, 0=2759.0210.8 2548.2 2969.8
Sin patologa: n=7 0=3221.4182.5 3038.9 3403.9





Pg.15




El grfico de promedio error estndar se utiliza para representacin grfica cuando las
desviaciones estndar de los datos son muy grandes y distorsionan la escala. A veces se
grafica tambin02*e.s., lo cual tiene como propiedad mostrar un intervalo de confianza al
95% para el promedio poblacional.
Pe s o R N s e g n Pa t o l o g a
( p r o me d i o D S)
2 0 0 0
2 2 0 0
2 4 0 0
2 6 0 0
2 8 0 0
3 0 0 0
3 2 0 0
3 4 0 0
3 6 0 0
C o n
Pat o l o g i a
Si n
Pat o l o g i a

Pg.16

DESCRIPCIN DE DOS VARIABLES CATEGORICAS.

Este es el caso cuando se quiere describir simultneamente dos variables nominales, ordinales no
promediables e intervalares en rangos.

En esta situacin el resultado se presenta generalmente en una tabla de contingencia. Al igual
que en el caso de una variable categrica, las medidas resumen adecuadas son el nmero de
casos y porcentaje, pero esta vez para cada combinacin de niveles o categoras de las variables.

Por ejemplo, supongamos que un estudio busca determinar si existe relacin entre fumar y cncer
pulmonar. Para esto, se tomaron 70 personas con cncer y 380 sin cncer y se observ en sus
antecedentes si estas 450 personas eran fumadoras. La tabla resultante es la siguiente:





Cncer Pulmonar



Si

No

Total

Si

30

120

150

No

40

260

300



Fuma

Total

70

380

450


La tabla anterior permite observar los resultados del estudio, pero no incluye porcentajes. La
pregunta es: )Qu porcentaje se debe calcular: porcentaje de fumadores con cncer o el
porcentaje de cancerosos que fuman?





Cncer Pulmonar



Si

No

Total



n

%

n

%



Si

30

42.9

120

31.6

150

No

40

57.1

260

86.4

300





Fuma

Total

70

100

380

100

450


Ntese que la primera tabla muestra un mayor nmero de personas con cncer en el grupo de no
fumadores. De otra forma, el mayor nmero de fumadores se observa en el grupo sin cncer.
Ninguna de estas observaciones toma en cuenta el mayor nmero de no fumadores (o el mayor
nmero de personas sin cncer).

Pg.17
Presentacin Grfica.
La graficacin de dos o ms variables simultaneas generalmente muestra porcentajes, los cuales
deben ser bien definidos, como en la tabla.

Grfico Circular: En este caso se hace un grfico para cada poblacin. Es una buena
alternativa a los grficos de barras, principalmente en presentaciones.

Barras Agrupadas: Muestra los porcentajes en cada categora de la variable en barras
adyacentes, separado por cada poblacin.

Barras Subdivididas Muestra una sola barra para cada poblacin, todas de altura 100%,
divididas en forma proporcional al porcentaje de cada categora de la
variable. Es muy til cuando se grafican muchas poblaciones.


Ejemplo: Construya un grfico que muestre la relacin entre patologa de nacimiento y peso
inferior a 3000 gramos.


Pg.18
DESCRIPCION DE UNA VARIABLE CATEGORICA Y UNA NUMERICA.

La asociacin de una variable categrica y una numrica no requiere hacer clculos adicionales.
Se recurre a descripciones y grficos ya vistos.

Medidas Resumen
Se obtienen medidas resumen de la variable numrica (n, 0, s, Md, percentiles, etc.) para cada
nivel de la variable categrica.

Por ejemplo, si interesa describir el peso del recin nacido segn patologa, las medidas resumen
pueden ser:

Con patologa: n=5 0=2759.0 210.8
Sin patologa: n=7 0=3221.4 182.5



Representacin Grfica
La representacin grfica en este caso son:

Box Plot: De la variable numrica, separado para cada nivel de la categrica.

0 s: De la variable numrica, separado para cada nivel de la categrica.

0 e.s.: De la variable numrica, separado para cada nivel de la categrica.

Pg.19
DESCRIPCIN DE DOS VARIABLES NUMERICAS.

Cuando es de inters observar la relacin entre dos variables numricas, la medida resumen ms
utilizada es el Coeficiente de Correlacin Lineal, que se simboliza "r". Hay dos mtodos de
obtener la correlacin:

Correlacin Muestral de Pearson: Se usa cuando las dos variables a relacionar son
intervalares.

Correlacin por Rangos de Spearman: Se usa cuando al menos una de las variables a
relacionar es ordinal.

Como en este caso tenemos dos variables X e Y en una muestra de tamao n, los datos son pares
(x
1
,y
1
), (x
2
,y
2
), ..., (x
n
,y
n
). La forma de calcular la correlacin de Pearson es la siguiente:

Ejemplo: Supongamos que se tom una muestra de 5 madres, registrndose las variables
edad materna y peso de sus hijos recin nacidos. Los datos son: (31,3500),
(26,2990), (17,2800), (20,3000) y (28,3100).

El promedio de edad es x=24.4 y de peso RN es y=3078. El clculo de la
correlacin de Pearson es el siguiente:
_ _ _ _ _ _
x y x-x y-y (x-x)(y-y) (x-x)5 (y-y)5

31 3500 6.6 422 2785.2 43.56 178084
26 2990 1.6 -88 -140.8 2.56 7744
17 2800 -7.4 -278 2057.2 54.76 77284
20 3000 -4.4 -78 343.2 19.36 6084
28 3100 3.6 22 79.2 12.96 484
_ _ _ _
Luego: (x-x)(y-y) = 5124 (x-x)5=133.2 (y-y)5=269680

Finalmente:
5124
r = ------------------ = 0.855
%133.2*269680

para calcular la correlacin de Spearman es necesario que al menos una de las variables sea
ordinal. En este caso, es necesario calcular los rangos para cada variable por separado, es
decir, el orden que tiene cada observacin al interior de cada variable y luego calcular la
correlacin usando estos rangos en vez de los datos originales.

Por ejemplo, si calculamos la correlacin de Spearman para la edad y peso RN, y los rangos de la
2
_
2
_
_ _
) ( ) (
) )( (



=
y y x x
y y x x
r
i i
i i

Pg.20
edad son E1,E2,..E5 y los de peso son P1,P2,...,P5, el clculo es:
_ _
(E-E)(P-P)
r = _________________
_ _
%(E-E)5 %(P-P)5
_ _
En este caso, el promedio de rangos de edad es E=3.0 y de peso RN es P=3.0

_ _ _ _ _ _
E P E-E P-P (E-E)(P-P) (E-E)5 (P-P)5

5 5 2 2 4 4 4
3 2 0 -1 0 0 1
1 1 -2 -2 4 4 4
2 3 -1 0 0 1 0
4 4 1 1 1 1 1

_ _ _ _
Luego: (E-E)(P-P) = 9 (E-E)5=10 (P-P)5=10

Finalmente: 9
r = ----------- = 0.900
%10*10


Interpretacin del Coeficiente de Correlacin

El coeficiente de correlacin (Pearson o Spearman) vara siempre entre -1 y 1.

Si r es cercano a 1, existe una asociacin lineal directa entre X e Y.
Si r es cercano a -1, existe una asociacin lineal inversa entre X e Y.
Si r es cercano a 0, no existe asociacin lineal entre X e Y.

Algunos autores coinciden en valorar de la siguiente forma un coeficiente de correlacin:

a. Si r est entre 0 y 0.25 (o -0.25) indica que no hay asociacin lineal entre X e Y.
b. Si r est entre 0.25 y 0.50 (o entre -0.25 y -0.50) hay una pobre o muy baja asociacin
lineal entre X e Y.
c. Si r est entre 0.50 y 0.75 (o entre -0.50 y -0.75) hay una buena o satisfactoria
asociacin lineal entre X e Y.
d. Si r es mayor que 0.75 (o -0.75) hay una muy buena o excelente asociacin lineal
entre X e Y.
Representacin Grfica

la mejor forma de observar el grado de asociacin entre X e Y es mediante un grfico de
dispersin (o Scattergram). La variable explicatoria X debe graficarse en el eje X o abscisa. La

Pg.21
variable explicada Y debe graficarse en el eje Y u ordenada. Las posibilidades son las siguientes:









*



*

*







*

*













*







*



*

*











*











*



*

*







**

*





*

**













**



**

*











**





**

*

*







**



*



















*

**







*

**





Asociacin Asociacin Sin Asociacin Sin Asociacin
Lineal Directa Lineal Inversa Lineal Lineal
(r.1) (r.-1) (r.0) (r.0)


Ntese que el cuarto grfico muestra una correlacin cercana a cero (indicador de asociacin
lineal nula). Sin embargo, es claro que s existe asociacin entre X e Y. Luego, es importante
recordar que los coeficientes de correlacin de Pearson y Spearman slo permiten determinar si
existe asociacin lineal entre dos variables numricas.


Pg.22
ESTIMACIN DE PARMETROS POBLACIONALES.

La estadstica descriptiva vista hasta ahora no slo nos permite obtener un perfil del
comportamiento de los datos muestrales; nos permite tambin obtener estimaciones de
parmetros poblacionales, lo que generalmente es lo ms importante.

Por una parte, en la poblacin tenemos medidas de tendencia central, de posicin y de dispersin
que son fijas e invariables. Estas medidas son llamadas parmetros poblacionales o
simplemente parmetros. Por ejemplo, la talla promedio de la mujer chilena en la poblacin es
constante, as como su desviacin estndar, cuartiles, etc.

Por otra parte, el clculo de promedios, medianas, etc. obtenidos en una muestra son
estimaciones de esos parmetros. Estas medidas son llamadas parmetros estimados o
estimadores. A diferencia de los parmetros poblacionales, los estimadores muestrales no son
nicos, ya que varan al tomar distintas muestras de la misma poblacin. En su dimensin
muestral, los estimadores son llamados medidas resumen, estadgrafos o estadsticos.

Los parmetros poblacionales habitualmente se simbolizan con una letra griega y sus
estimadores con una letra latina. Tambin es posible estimar distribuciones, conglomerados, etc.

Caracterstica Parmetro Estimador
Media o Promedio 0
Desv. estndar s
Varianza 5 s5
Error Estndar /%N s/%n
Proporcin P p (frec.relativa)
Distribucin -- Histograma


Los estimadores muestrales tambin suelen representarse con la letra griega que representa al
parmetro con un tilde ^ sobre ella. Por ejemplo: 0 = ^ es un estimador de .


Sesgo.
Se llama sesgo a la diferencia que existe entre un estimador y el parmetro al cual estima. Este
sesgo (o error) se presenta cuando hay problemas en la seleccin de los sujetos que componen la
muestra, la calidad de los instrumentos utilizados, la confiabilidad de las respuestas de personas
encuestadas, etc. Evidentemente, mientras mayor es el sesgo, peor es la estimacin del parmetro
de inters. Mientras mayor es la precisin, menor es el sesgo cometido.

Cuando un estimador se "acerca" o "aproxima" cada vez ms al parmetro al cual estima, a
medida que el tamao muestral aumenta, se denomina un estimador insesgado.

Finalmente, dado que una medida resumen obtenida en una muestra es al fin y al cabo un slo
valor destinado a estimar un parmetro, y dado adems que este estimador no es nico, suele
llamarse un estimador puntual.

Resumen Estadstica Descriptiva

Antes de hacer la estadstica descriptiva, clasificar cada variable como nominal, ordinal o intervalar.
Reclasificar las variables en slo 2 grupos: No promediables (categricas) y Promediables (numricas).


Variable(s) Medida Resumen Representacin Grfica


1 Categrica Tabla de Frecuencias Barras nro.casos % en cada categora
Incluye como mnimo el nro. de casos y Porcentaje Pie nro.casos % en cada
categora
Si la variable es ordinal, puede incluir % acumulado.
1 Numrica 0, Md Medidas de Tendencia Central Histograma Para ver la Distribucin
s, s
2
, e.s., rango Medidas de Dispersin Simetra (0 = Md)
Q1, Q3, deciles Medidas de Posicin Asim. Izquierda (0 < Md)
Percentiles. Asim.Derecha (0 > Md)

Use: n, 0 s. Poca/Moderada dispersin y/o Simetra Box-Plot 0 s
Md Cuartiles
Siempre cumple: Mnimo 75% en (0-2s,0+2s)
Grfico de Tallo y Hoja
Si hay 68% en (0-s,0+s) Grfico de 0 s
Normalidad: 95% en (0-2s,0+2s) Grfico de 0 e.s.
99% en (0-3s,0+3s)
Tambin puede graficar percentiles 5,10, 50,
Use: Md,Rango Mucha dispersin y/o Asimetra 90 y 95 para establecer criterios de
Normalidad
(si el caso cae entre p5-p95 o entre p10-p90)
Cuartiles Medidas de Posicin 25% y 75% y Anormalidad (si cae fuera de los
rangos).

p5, p10 Lmite Inferior (perc.5 o 10) y Superior
p90, p95 (perc.90 o 95) para Patrn Normal.

2 Categricas Tabla de Contingencia Barras % de cada categora de una de las
Las categoras de una de las variables se ponen como variables, agrupadas para cada
filas y las categoras de la otra como columnas. categora de la otra.
Incluir nro. de casos y porcentaje (por filas o columnas) Pie Igual criterio que en Barras.

2 Numricas Correlacin de Pearson (ambas intervalares) Grfico de Dispersin
Correlacin de Spearman (al menos una ordinal) (o Scattergram)
r vara entre -1 y 1.
r cercano a 1 Asoc.Lineal Directa El grfico de dispersin requiere poner
la
r cercano a -1 Asoc.Lineal Inversa variable explicatoria en la abscisa (Eje
X)
r cercano a 0 Sin Asoc.Lineal y la explicada en la ordenada (Eje Y).
r entre -0.25 y 0.25 Sin asoc. Lineal
r entre -0.50 y 0.50 Regular Asoc. Lineal
r entre -0.75 y 0.75 Buena Asoc. Lineal
r <-0.75 o r > 0.75 Excelente Asoc. Lineal


1 Categ-1 Numrica Descripcin de la variable numrica (n, 0, s, e.s., Histograma
Md, Q1, Q3, rango, etc.) En forma separada para Box-Plot
cada nivel de la variable categrica Grfico de 0 s o bin 0 e.s.
(Todos los grficos son de variable numrica
para cada nivel de la variable categrica).
L.Villarroel

Pg.24
CURSO DE BIOESTADISTICA
II. Estadstica Analtica Univariada


Presentacin habitual de un problema de estadstica analtica.

Generalmente en un estudio en medicina interesa determinar si la presencia, ausencia o valores de una
variable (como peso de nacimiento, presencia o ausencia de una patologa, muerte, recidiva, etc.) est
relacionada con la presencia, ausencia o valores de otra variable, ya sea porque se sospecha una
relacin causal o al menos una asociacin entre ambas.

Cuando interesa determinar esta asociacin univariada (asociacin entre una variable explicatoria y la
variable explicada) hay cuatro situaciones posibles de encontrar, las cuales se pueden identificar segn
el tipo al que pertenece cada variable. A continuacin se ejemplifican estas situaciones:


(i) Pertenencia a un grupo tnico y su asociacin con la presencia de colelitiasis.

(ii) Presencia de hipertensin arterial y su influencia en la ganancia de peso durante el Embarazo.

(iii) Valor del Score Apache Ingreso como predictor de mortalidad cardiaca.

(iv) El peso del recin nacido y su asociacin con la edad materna.


Las situaciones descritas son hiptesis posibles de plantear en distintos mbitos de la Medicina. En
cualquier caso, se deben seguir los siguientes pasos antes de hacer cualquier estadstica analtica:

(a) Identifique las variables involucradas en la asociacin.
(b) Identifique el tipo al que pertenece cada variable (nominal, ordinal, intervalar) y clasifique
cada una como categrica o numrica.
(c) Identifique cual de ellas es la variable explicada y cual la explicatoria.



Variable Explicada y Explicatoria
El objetivo de un proyecto de investigacin suele ser el buscar una explicacin a un fenmeno propio
de la medicina. Este fenmeno bajo estudio es medido a travs de una variable, la cual es llamada
variable explicada, dependiente o respuesta.

Por otra parte, la bsqueda de una explicacin para el fenmeno se hace a travs de otro conjunto de
variables que podran estar asociadas al problema. Estas son llamadas variables explicatorias,
independientes o factores.

La variable explicada suele simbolizarse con la letra Y, mientras la explicatoria se simboliza con la
letra X (o X1, X2,..., Xk si son ms de una).


Pg.25
En un mismo estudio es posible encontrar ms de una expresin para la variable explicada. Por
ejemplo, en (ii) la variable HTA puede expresarse como presente/ausente (variable categrica) o como
el valor de las presiones arteriales sistlica y diastlica (variable numrica). Lo mismo ocurre con las
variables explicatorias.

Adems, una variable que es explicatoria en un estudio puede ser el fenmeno bajo estudio en otro.

Ejercicio: - Para cada una de las situaciones planteadas en (i) a (iv), identifique las variables, su
tipo y las variables explicada y explicatoria.



LAS POSIBLES ASOCIACIONES.

En todo estudio, la variable explicada y cada una de las variables explicatorias pueden ser encasilladas
como nominal (categrica) o numrica. De este modo, cuando se busca determinar la asociacin de la
variable explicada y una variable explicatoria, se tiene slo una de las siguientes combinaciones:


Situacin Var.Explicatoria Var.Explicada
---------------------------------------------------------------
1 CATEGORICA CATEGORICA
2 CATEGORICA NUMERICA
3 NUMERICA CATEGORICA
4 NUMERICA NUMERICA


Para efecto de anlisis estadstico, las situaciones 2 y 3 son tratadas de la misma forma, cambiando slo
la interpretacin de su resultado.



Nota: 1. Si se observa primero en el tiempo la variable X y posteriormente la variable Y, el estudio es
prospectivo (de Cohorte). La pregunta de inters es: Dado el valor de X (conocido), )Qu
ocurrir con Y en el futuro?

Ejemplo: Un estudio en el que se toma una muestra de fumadores y otra de no fumadores,
determinndose despus de un tiempo de seguimiento (que pueden ser varios aos) el
porcentaje que hace un cncer pulmonar en cada grupo.


2. Si se observa primero la variable Y y luego X, el estudio es retrospectivo (Caso-control). La
pregunta de inters es: Dado que ocurri Y, )Qu pas con X en el pasado?

Ejemplo: Un estudio en el que se toma una muestra de personas que hicieron un cncer
pulmonar y otra muestra de personas sanas, determinndose mediante sus fichas clnicas el
porcentaje que fumaba en cada grupo.

Pg.26

3. Si se observan X e Y simultneamente el estudio es transversal (Prevalencia). La pregunta
de inters es: )Qu est ocurriendo con X e Y en este momento?

Ejemplo: Un estudio en el que se aplica una encuesta a una muestra de tamao n de la
poblacin general, con dos preguntas: (i) )Usted fuma? (ii) )Usted tiene cncer pulmonar?,
determinndose el porcentaje de fumadores con cncer y de no fumadores con cncer.



Pg.27
SITUACION 1: EXPLICATORIA CATEGORICA - EXPLICADA CATEGORICA.

Como en este caso las variables X e Y tienen 2 o ms niveles cada una, es posible construir una tabla
de contingencia. La tabla de 2x2 como la siguiente es la ms reducida posible de construir:

Y
y
1
y
2

X x
1
a b
x
2
c d

-En la tabla se calculan porcentajes por fila, por columna o respecto al total, segn corresponda
(depende del tipo de estudio: prospectivo, retrospectivo o de prevalencia). Por ejemplo, suponga que los
datos siguientes corresponden a un estudio diseado para determinar la asociacin entre fumar y cncer
al pulmn:

Cncer Pulmonar
Si No Total
--------------------------------------
Si 31 28 59 )Qu porcentajes se deben calcular:
Fuma Porcentaje de fumadores con cncer
No 89 172 261 o porcentaje de cancerosos que fuman?
--------------------------------------
Total 120 200 320

-En tablas de 2x2 se comparan los porcentajes con test de Chi-cuadrado o Exacto de Fisher. Si la
tabla tiene ms de 2 filas o columnas, slo es posible calcular test de Chi-cuadrado.
n(ad-bc)
2

-En tablas de 2x2, el valor de Chi-cuadrado se obtiene con la frmula:
c
2
= --------------------
(a+c)(b+d)(a+b)(c+d)

Si
c
2
> 3.841, el test es significativo con p<0.05; Si
c
2
> 6.635 es significativo p<0.01. Si se usa
n(ad-bc - 0.5)
2
como numerador, se obtiene el
2
con correccin de Yates o con correccin por
continuidad, el cual es ms conservador que el
2
original. (En el ejemplo,
c
2
=6.98, p<0.01 )

-Si interesa comparar dos porcentajes (p1 vs p2) dados por:

(i) p1=%fumadores con cncer = 31/59=52.5% vs p2=%no fumadores con cncer = 89/261=34.1%
(ii) p1=%cancerosos que fuma=31/120=25.8% vs p2=% no cancerosos que fuma = 28/200=14.0%

En ambos casos, las hiptesis estadsticas planteadas son: Ho: p1 = p2 vs Ha: p1 p2
Tambin en ambos casos, el valor de
c
2
=6.98, p<0.01. La conclusin estadstica es que existen
diferencias significativas entre los porcentajes. La conclusin mdica es que hay asociacin entre fumar
y cncer pulmonar.

-Si es necesario (o til), es posible colapsar categoras de la variable X Y para construir tablas ms
chicas. En ocasiones esto permite dar mayor consistencia a un anlisis.

Pg.28
Casos Especiales en Tablas de 2x2: Razn de Chances (Odds Ratio, OR)

El test de Chi-cuadrado determina si existe o no asociacin entre dos variables cualitativas, pero no
indica el grado de asociacin.

Por ejemplo, supongamos que un estudio retrospectivo diseado para determinar si fumar (x) est
asociado con la presencia de cncer pulmonar (y) se observaron dos grupos de sujetos: 120 con
cncer pulmonar y 200 sin cncer. Al clasificar ambos grupos segn hbito tabquico se obtuvo la
siguiente tabla:

Ca Pulmn
Si No Total
----------------------------------
Si 31 28 59
Fuma
No 89 172 261
----------------------------------
Total 120 200 320

El test de chi-cuadrado es igual a 6.98 (p=0.0082). Por lo tanto existe asociacin entre fumar y la
presencia de cncer. El grado de asociacin lo podemos cuantificar mediante la razn de chances
(OR), como:

(31/120)/(89/120) 0.3483
OR = = = 2.14
(28/200)/(172/200) 0.1628

Es decir, la chance de hacer un cncer pulmonar es 2.14 veces ms alta entre los fumadores que entre
los no fumadores.

En realidad, la interpretacin del 2.14 debiera ser: "la chance de fumar es 2.14 veces ms alta entre los
cancerosos que entre los no cancerosos". )Porqu entonces se interpreta de otra manera? La respuesta
est en que el OR se puede calcular en estudios retrospectivos o prospectivos. Si la tabla anterior fuese
el resultado de un estudio prospectivo, el OR sera:

(31/59)/(28/59) 1.107
OR = = = 2.14
(89/261)/(172/261) 0.517

Cualquiera sea el caso, el OR puede calcularse como: OR = (31*172)/(89*28) = 2.14.

Es decir, el producto de la diagonal principal dividido por el producto de la diagonal secundaria. Por
este motivo el OR es tambin conocido como la razn de productos cruzados.

Pg.29
Casos Especiales en Tablas de 2x2: Riesgo Relativo (RR)

Si el estudio anterior hubiese sido PROSPECTIVO (es decir, se siguieron 59 fumadores y 261 no
fumadores por un lapso de tiempo, al cabo del cual se determin cuantos haban hecho un cncer
pulmonar en cada grupo), la tabla resultante habra sido la misma, pero habra sido posible calcular el
riesgo relativo de hacer un cncer entre los fumadores en relacin a los no fumadores. El clculo en
este caso es el siguiente:

31/59 0.525
RR = = = 1.54
89/261 0.341

Es decir, hay un 54% ms de riesgo de hacer un cncer al pulmn entre los fumadores que entre los no
fumadores.

Notas: (1) El RR no se calcula si el estudio es retrospectivo, ya que al variar el nmero de casos o
controles se altera el valor del riesgo. Por ejemplo, si en la tabla aumentamos al doble
los casos de cncer, manteniendo la proporcin de fumadores en ese grupo, la tabla
sera:

Ca Pulmn
Si No Total
----------------------------------
Si 62 28 90
Fuma
No 178 172 350
----------------------------------
Total 240 200 440

En este caso el riesgo relativo es: RR= [62/90] / [178/350] = 1.35. El RR resulta ser menor al
original. El OR, en cambio, sigue siendo 2.14.

(2) Si la patologa estudiada es de rara ocurrencia, el Riesgo Relativo y la Razn de Chances
deben mostrar valores similares. Al contrario, mientras ms frecuente es la patologa, mayor es
la diferencia entre RR y OR.

(3) Es posible construir un intervalo al 95% de confianza para el verdadero valor de RR o de
OR, usando la siguiente expresin:

donde LN es el logaritmo natural y "e" es 2.71828, base de los logaritmos naturales. Ambas
funciones se encuentran en cualquier calculadora cientfica.
e
RR
)
d
1
+
c
1
+
b
1
+
a
1
1.96 + (RR) ( LN
=


Pg.30
Casos Especiales en Tablas de 2x2: Test de McNemar

Si las variables X e Y estn CORRELACIONADAS (el valor de X determina en cierta medida el valor
de Y), entonces los test de Chi-cuadrado y Exacto de Fisher no son de utilidad, ya que obviamente dirn
que existe asociacin entre X e Y. En este caso, interesa determinar si X e Y son concordantes o
discordantes.

Por ejemplo, en un estudio en que interesa determinar la exactitud de dos mtodos diagnsticos de
trombosis (termografa y venografa), se clasificaron 55 pacientes segn ambos mtodos. El resultado
fue el siguiente:

Venografa
(+) (-) Total
----------------------------------
(+) 19 8 27
Termografa
(-) 1 27 28
----------------------------------
Total 20 35 55


Hiptesis: Ho: Los mtodos hacen el mismo diagnstico
Ha: Hay diferencias entre los mtodos


(b-c - 1)5 (8 - 1 -1)5
El test de McNemar es: x5 = = = 4.0
b+c 8 + 1

El valor obtenido debe compararse con un Chi-cuadrado con 1 grado de libertad (valor crtico al 5% es
x5=3.841). Luego, con p<0.05, se concluye que hay una diferencia en la proporcin de diagnsticos de
trombosis entre ambos mtodos.

El test de McNemar es til tambin cuando se quiere determinar si dos especialistas llegan a una misma
conclusin respecto a un diagnstico. Ntese que en este caso no interesa si el diagnstico es correcto o
incorrecto, slo interesa la discordancia.

Existe otro test muy utilizado para esta situacin: Test Kappa.

Este test se puede usar en tablas de ms de 2x2 (tablas de 3x3, 4x4, etc.). Por ejemplo, cuando se pide a
dos observadores clasificar un conjunto de enfermos como leve, moderado y severo, e interesa
determinar la concordancia entre los observadores.

Pg.31
Casos Especiales en Tablas de 2x2: Sensibilidad y Especificidad

En este caso interesa evaluar la efectividad de un procedimiento para diagnosticar una patologa, por lo
que los test tradicionales tampoco son muy utiles. La construccin del test diagnstico se hace mediante
un estudio retrospectivo. Por ejemplo, supongamos un estudio retrospectivo con los siguientes
resultados:

Patologa
(+) (-) Total
----------------------------------
(+) 161 6 167
Proc.Diagnstico
(-) 19 194 213
----------------------------------
Total 180 200 380

Sensibilidad (S) = Probabilidad de diagnstico (+) cuando la
enfermedad est presente = 161/180 = 89.4%

Especificidad (E)= Probabilidad de diagnstico (-) cuando la
enfermedad est ausente = 194/200 = 97.0%

Tambin es posible calcular el porcentaje de falsos positivos (procedimiento resulta positivo pero la
enfermedad est ausente) y falsos negativos (cuando resulta negativo pero la enfermedad est
presente).

Falsos Negativos = 19/180 = 10.6% Falsos Positivos = 6/200 = 3.0%


Notas: -La posterior aplicacin clnica del test construido requiere de un estudio prospectivo. En este
caso, se calculan los valores predictivo positivo y negativo del procedimiento diagnstico. En
la tabla anterior, estos valores seran: VP(+) = 161/167 = 94.4% y VP(-) = 194/213 = 91.1%.

-La comparacin de dos procedimientos diagnsticos respecto a su habilidad predictiva puede
hacerme mediante el test de Chi-cuadrado. (La sensibilidad y especificidad son proporciones).

-Un caso especial se produce cuando se busca el mejor punto de corte en una variable intervalar
que arroje la ms alta sensibilidad y especificidad posibles para una determinada patologa. La
comparacin de dos variables intervalares "candidatas" se hace usando curvas ROC (curvas de
sensibilidad y especificidad). El area bajo estas curvas se comparan usando un test "z", segn
un procedimiento descrito por Hantley & McNeil el ao 1983.

Pg.32
SITUACION 2: EXPLICATORIA CATEGORICA - EXPLICADA NUMERICA.
SITUACION 3: EXPLICATORIA NUMERICA - EXPLICADA CATEGORICA.

Esta forma de anlisis se usa cuando una de las variables es categrica y la otra numrica, sin importar
cul es la variable explicada, cambiando slo la interpretacin del resultado. A continuacin se describe
el mtodo para el caso en que X es categrica e Y numrica.

En este caso, la variable X tiene 2 o ms niveles y la variable Y toma un amplio rango de valores
numricos. Esta condicin de Y impide hacer una tabla de contingencia como en 3.1. La situacin en
este caso es la siguiente:
Niveles de Variable X



x
1
x
2
.... x
k

y
11
y
21
y
k1


y
12
... y
k2



... y
2n2
...



y
1n1






y
knk


No.Casos

n
1
n
2
... n
k
Promedio y
1
y
2
... y
k
Dv.Est. s
1
s
2
... s
k


-Se calcula el promedio y desv. estndar de la variable Y para cada categora de X. Para este anlisis
los valores y
i
deben ser independientes entre s y entre las categoras de X. Adems, los y
i
deben tener
distribucin normal al interior de cada categora de X.

-Si la variable X tiene slo 2 niveles, se comparan los promedios con test t de Student para muestras
independientes.

-Si X tiene ms de 2 niveles, se comparan los promedios con Anlisis de la Varianza. Si la ANOVA
arroja diferencias significativas entre los promedios, se debe usar un test de comparaciones mltiples
para detectar el o los promedios distintos. (test de Student-Newman-Keuls, Duncan, Bonferroni,
Scheff, etc.)

-Si los y
i
no tienen distribucin normal, pueden probarse transformaciones de los datos, como el
logaritmo, raz cuadrada, arcoseno, etc., y usar los test descritos antes. La normalidad de un conjunto de
datos puede probarse con el test de Kolmogorov-Smirnov.

-Si persiste la no normalidad, o no es posible asumir normalidad debido a tamaos muestrales
reducidos, deben usarse test no paramtricos: Test de Wilcoxon en vez de t de Student; Test de
Kruskal-Wallis en vez de ANOVA y test de Dunn para las comparaciones mltiples.

-Es posible transformar la variable Y en una variable NOMINAL construyendo RANGOS. En este
caso, la asociacin de X e Y se reduce al caso descrito en el punto 3.1.

Pg.33
Caso Especial de Comparacin de Promedios: Medidas Repetidas.

El anlisis descrito en 3.2 debe cumplir un requisito importante adems de la normalidad: los
promedios y
1
, y
2
,...,y
k
deben ser independientes entre s. Es decir, los pacientes al interior de cada
nivel de X son distintos e independientes de los pacientes del resto de los niveles de X.

Lo anterior no se cumple si el estudio considera a un mismo grupo de pacientes a los que se les mide
una variable respuesta intervalar en distintos tiempos o bajo condiciones diferentes. En este caso, X
sigue siendo nominal (representa a los distintos tiempos o las diferentes condiciones) e Y sigue siendo
intervalar, pero no se cumple el supuesto de independencia.

Si la muestra considera "n" pacientes estudiados, el esquema es el siguiente:

Tiempo, Tratamiento o Condicin (X).

Paciente

x
1
x
2
.... x
k

1

y
11
y
21
y
k1
2

y
12
y
22
y
k2

:

... ... ...

n

y
1n
y
2n
y
kn

Promedio:

y
1


y
2




y
k



Ejemplos: -Comparacin de la P.A.Media de un grupo de pacientes hipertensos sometidos a un
medicamento, en tiempos basal (pre-tratamiento), 1 mes, 6 meses y 1 ao.

-Comparacin del peso corporal antes y despus de un tratamiento para la obesidad.


-Si X tiene slo 2 niveles, se calcula la diferencia de la variable Y pre y post intervencin () para cada
paciente y se hace un test t de student para muestras pareadas, para docimar la hiptesis Ho:
promedio = 0. Si se rechaza Ho, significa que hay diferencias significativas entre los dos tiempos o
condiciones.

-Si X tiene ms de 2 niveles, se comparan los promedios con anlisis de la varianza para medidas
repetidas. Los test de comparaciones mltiples son los mismos que en el caso de independencia: test de
Student-Newman-Keuls, Duncan, Bonferroni, etc.

-Si la variable Y no tiene distribucin normal al interior de cada categora de X, se pueden hacer test no
paramtricos: test de rangos signados de Wilcoxon en vez de test t de Student para muestras pareadas
y test de Friedman en vez de ANOVA para medidas repetidas. El test de comparaciones mltiples
sigue siendo el test de Dunn.

Pg.34
SITUACION 4: EXPLICATORIA NUMERICA - EXPLICADA NUMERICA.

En este caso el mejor anlisis posible de hacer es construir un grfico de dispersin (o scattergram), el
cual arrojar una de las siguientes situaciones:










*



*

*







*

*













*







*



*

*











*











*



*

*







**

*





*

**













**



**

*











**





**

*

*







**



*



















*

**







*

**








-La variable explicatoria siempre debe graficarse en el eje X o abscisa; La variable explicada debe
graficarse en el eje Y u ordenada.

-Se calcula el coeficiente de correlacin muestral de Pearson (si las 2 variables tienen unidad de
medida) o de Spearman (si al menos una es ordinal).

-Se determina mediante la correlacin si hay asociacin lineal directa (r cercano a 1, como en grfico
1), inversa (r cercano a -1, como en grfico 2) o sin asociacin lineal (r cercano a 0, como en grficos
3 y 4).

-Ntese que la no existencia de asociacin lineal no implica necesariamente que no exista asociacin
entre X e Y (como en grfico 4, en que la asociacin es exponencial).

-Es posible hacer un anlisis de Regresin Lineal Simple, si la correlacin es alta, para estimar la
constante y la pendiente asociadas a X que permitan PREDECIR el valor de Y para cada valor de X.

-Es posible transformar una de las variables en NOMINAL construyendo RANGOS para esa variable.
En este caso, el tipo de anlisis es el descrito en 3.2. Si se discretizan ambas variables, el anlisis es el
descrito en 3.1.

Pg.35
EJEMPLOS PROPUESTOS.

Indique las variables explicada y explicatoria, tipos de variable y el enfoque estadstico ms adecuado
para las siguientes situaciones:

1. Interesa valorar el uso de la tomografa computarizada en el diagnstico de hernia de disco
lumbar. El gold estndar fue una confirmacin de la presencia o ausencia de hernia mediante
ciruga.

2. Interesa determinar si existen diferencias significativas en el porcentaje de complicaciones post
operatorias entre las intervenciones quirrgicas A y B.

3. Determinacin del riesgo de cncer mamario entre mujeres que usan pldoras anticonceptivas.

4. Comparacin de la concentracin de colesterol sanguneo entre pacientes que siguen una dieta
moderada en grasa, los que toman algn medicamento para reducir el colesterol y los que
reciben un placebo.

5. Determinar la asociacin del consumo de alcohol durante el embarazo (medido en
mililitros/semana) y el peso del nio al nacer.

6. Determinar la asociacin del consumo de alcohol durante el embarazo (medido en
mililitros/semana) y bajo peso de nacimiento (peso inferior a 3000 gramos).

7. Comparacin del peso corporal antes y despus de un programa de abstencin de tabaco.

8. Interesa determinar si la interpretacin que hace un especialista de una radiografa es la misma
que hace otro especialista que observa la radiografa en un computador de alta resolucin, a
travs de un programa de medicina a distancia.

9. En un estudio realizado con 500 personas en Valparaso, se inform que la prevalencia estimada
de alcoholismo crnico en la ciudad es de 5%. Otro estudio, hecho con 700 personas en
Santiago, encontr que 43 de ellos padecan de alcoholismo crnico. )Qu test se puede usar
para comparar ambos resultados?.

10. En cierto hospital A se encontr que en 45 trasplantes renales se presentaron 6 casos de
rechazo. En otro hospital B se presentaron 11 casos en 72 trasplantes. )Qu problema puede
presentar la comparacin de ambos resultados?.

11. Un equipo de psiquiatras dise un puntaje de estrs laboral, el cual toma valores cercanos a
100 puntos si la persona est muy estresada o cercanos a cero puntos si no hay estrs. Interesa
determinar si este puntaje est asociado con la edad del trabajador.

Pg.36
CURSO DE BIOESTADISTICA
III. Clculo de Tamaos Muestrales.



Clculo del tamao muestral para estimar una PREVALENCIA.
Cuando se desconoce el porcentaje P de casos que tiene alguna caracterstica de inters en una
poblacin, puede ser necesario estimar esta prevalencia mediante una muestra aleatoria.

En este caso, interesa determinar un tamao muestral mnimo, de modo que la prevalencia poblacional
P quede bin estimada por la prevalencia muestral p. Para un nivel de significancia =5%, el tamao
muestral esta dado por:
Ntese que n aumenta a medida que la prevalencia observada p est ms cerca de la prevalencia real. Es
decir, a mayor precisin en la estimacin, mayor es el tamao muestral requerido.

El clculo requiere un valor aproximado para la prevalencia poblacional. Si no es posible dar un valor
tentativo para P, debe asumir P=0.5, el cual entrega el mayor tamao muestral para un mismo nivel de
precisin.
Si la poblacin es finita, el tamao muestral debe corregirse de la siguiente forma:
donde n
*
es el tamao definitivo de la muestra.




Clculo del tamao muestral para comparar dos PROPORCIONES.
La situacin ms comn en que interesa determinar dos tamaos muestrales es cuando se quiere
comparar el porcentaje de personas con cierta caracterstica entre dos poblaciones: una de casos
(Poblacin A) y otra de controles (Poblacin B). Supongamos que esta caracterstica se da en
proporcin P
a
en los casos y P
b
en los controles.

Las hiptesis de inters en este caso son:

Ho: P
a
= P
b

Ha: P
a
P
b


Interesa determinar tamaos muestrales mnimos, n
a
y n
b
, generalmente n
a
=n
b
=n, de modo de rechazar
Ho, para un nivel de significancia y una potencia 1-.
) p (P
P) P(1
96
1.
= n
2
2



N
n
+ 1
n
=
n
*


Pg.37
En el clculo del tamao muestral participa un factor que depende de y . El factor se obtiene de la
siguiente tabla:


\

0.05

0.1

0.2

0.5

0.1

10.8

8.6

6.2

2.7

0.05

13.0

10.5

7.9

3.8

0.02

15.8

13.0

10.0

5.4

0.01

17.8

14.9

11.7

6.6


De esta forma, el tamao muestral mnimo est dado por:
Donde el valor de f(,) se obtiene de la tabla previa. Por ejemplo, para una significancia =5% y
potencia 1-=80%, f(,)=7.9

Ntese que la frmula entrega el tamao muestral mnimo para cada muestra. (Es decir, las dos
muestras deben ser de tamao n).




Clculo del tamao muestral mnimo para comparar dos PROMEDIOS.
En ocasiones interesa determinar el tamao muestral mnimo de casos y controles para encontrar
diferencias significativas entre dos promedios.

Si las poblaciones son A y B, con promedios
a
y
b
respectivamente, ambas con varianza comn
2
,
las hiptesis de intrs son:
Ho:
a
=
b

Ha:
a

b


Para un nivel de significancia y una potencia 1-, el tamao muestral mnimo necesario en cada
muestra es:
La funcin f(,) se obtiene de la tabla de la pgina previa, al igual que en la comparacin de
proporciones.
) , f(
)
P P
(
)
P
(1
P
+ )
P
(1
P
= n
2
b a
b b a a



) , f(
) (
2
= n
2
b a
2




Pg.38
EJEMPLOS PROPUESTOS.

Los siguientes ejemplos pueden ser resueltos usando las frmulas anteriores y una calculadora.

1. Un departamento local de salud quiere calcular la prevalencia de tuberculosis entre los menores de 5
aos de su circunscripcin. )Cuantos nios han de figurar en la muestra para estimar la prevalencia con
una precisin de 5 puntos porcentuales del valor real y un 95% de confianza, si se sabe que es poco
probable que la verdadera tasa exceda del 20%?


2. El investigador de cierto programa nacional de inmunizacin desea calcular la proporcin de nios
que reciben vacunacin apropiada durante la infancia. )Cuantos nios habr que estudiar para que la
estimacin resultante se site en un intervalo del 10% (no de 10 puntos porcentuales) de la proporcin
real con un 95% de confianza?


3. Se estima que la proporcin de casos con complicaciones a raiz de cierta intervencin quirrgica es
de 5%, mientras que la proporcin de complicaciones a raiz de otra intervencin es de 15%. )Cual
tendra que ser el tamao de la muestra de cada grupo de pacientes si se desea comprobar, con una
potencia de 90%, que existe una diferencia significativa en la tasa de complicaciones, a un nivel de
significancia del 5%?