Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual de Estadística Básica para Estudiantes de Medicina PDF
Manual de Estadística Básica para Estudiantes de Medicina PDF
agcerver@ correo.xoc.uam .m x
CONTENIDO .
Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
Simbologa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
INTRODUCCIN .
El aprendizaje de la estadstica es indispensable para todo estudiante de medicina, pues en
la actualidad es imposible mantenerse actualizado en cualquier campo de la profesin sin la
lectura o la consulta de artculos de investigacin mdica.
Pero tampoco es posible entender lo que estos artculos se preguntan o afirman sin conocer
el lenguaje, al menos el ms sencillo, que se utiliza para el anlisis de los resultados y para la
interpretacin de la informacin. En medicina, este lenguaje est dado bsicamente por la
epidemiologa y por la estadstica.
La estadstica, sin embargo, no se limita (ni mucho menos) a las tcnicas de anlisis que aqu
se presentan. Estas son slo las ms elementales, son las que constituyen la base para poder
posteriormente avanzar sobre las ms complejas. Pero no se pueden abordar estas ltimas sin
el conocimiento y manejo adecuado de las primeras.
Este manual tiene como objetivo facilitar el aprendizaje, pero debe tomarse en cuenta que,
por el tratamiento preliminar que se da a sus fundamentos, no debe verse como un sustituto
de la lectura y del estudio de algn libro de estadstica.
ii
SIMBOLOGA .
Caracteres latinos:
a: valor de la interseccin de una lnea de regresin en una muestra (captulo 9).
b: valor de la pendiente de una lnea de regresin en una muestra (o coeficiente
de regresin; captulo 9).
EE : error estndar (o de muestreo o aleatorio o experimental; captulos 4 al 7).
gl : grados de libertad (usualmente, pero no siempre, n - 1).
Ho : hiptesis nula (captulos 5 al 9).
n: nmero total de observaciones (casos) en una muestra.
n - 1 : grados de libertad (gl).
p: proporcin en una muestra (captulo 2).
p(x) : probabilidad de que ocurra un suceso x (captulo 3).
p<, p>, p=:probabilidad de equivocarse al rechazar la hiptesis nula (captulos 5 al 8).
r: coeficiente de correlacin de Pearson (captulo 9); tambin se utiliza para
sealar el nmero de observaciones con la caracterstica buscada (captulo 2).
2
r : coeficiente de determinacin (captulo 9).
s: desviacin estndar en una muestra (captulo 2).
2
s : varianza en una muestra (captulo 2).
xG : media aritmtica de una muestra de la variable x (captulo 2).
yG : media aritmtica de una muestra de la variable y.
Caracteres griegos:
": valor de la interseccin de una lnea de regresin en una poblacin (captulo 9).
$ : valor de la pendiente (o coeficiente de regresin) de una lnea de regresin en
una poblacin (captulo 9).
:: media aritmtica de la variable x en la poblacin(captulo 2).
B: proporcin en una poblacin (captulo 2).
E: suma.
F: desviacin estndar en una poblacin (captulo 2).
F2 : varianza en una poblacin (captulo 2).
P2 : Ji al Cuadrado (captulo 8).
1
Cuando se lleva a cabo una investigacin, uno de los aspectos que en primer lugar se toma
en cuenta es el tipo de datos recolectados, pues ello define el diseo de la base de datos, los
anlisis que puedan llevarse a cabo y las formas de presentacin.
En primer lugar, podemos advertir que existen cantidades (o magnitudes) cuyos valores
siempre permanecen fijos, mientras que otras pueden tomar distintos valores. Por ejemplo,
si observamos el dimetro de la pupila, podremos apreciar que se modifica de acuerdo a la
cantidad de luz que llega al ojo; sin embargo, la relacin entre la circunferencia de la pupila
y su dimetro permanece constante, no importando que se trate de un crculo grande o
pequeo (la circunferencia siempre es 3.1416 veces la longitud del dimetro, aproximadamen-
te, o sea el nmero B). De esta manera, el dimetro (una cantidad que se modifica) es una
variable; por otro lado, la relacin entre la circunferencia y el dimetro (que siempre es la
misma) es una constante.
Existen distintos tipos de constantes: las numricas (como la mencionada arriba o el nmero
e, igual a 2.718281828 aproximadamente, base de los logaritmos naturales), las fsicas
(constante de Boltzmann, k; constante de Planck, h) o las qumicas (nmero o constante de
Avogadro, NA; constante de los gases, R; constante de equilibrio, KC). La estadstica, sin
embargo, tiene que ver casi siempre con variables ms que con constantes.
Las variables y las constantes son generalmente representadas por smbolos, con el objeto de
poderlas escribir rpida y concisamente al manipular frmulas o reglas de computacin. Por
lo regular se utilizan letras. Se acostumbra usar las del final del abecedario (por ejemplo, x, y,
z) para las variables, y las del inicio (por ejemplo, a, b, c) para las constantes. Otras letras,
como i, j o k, se usan para procesos de conteo repetitivo; mientras que la letra n se usa para
representar el nmero total de repeticiones u observaciones.
Sin embargo, stas son convenciones que pueden estar sujetas a cambios, dependiendo del
tema o del autor, por lo que es aconsejable que siempre se aclare el significado de cada
smbolo, especialmente cuando se trata de uno nuevo o se le da una denotacin distinta a la
usual. En este manual se procurar utilizar la simbologa ms comn (ver la seccin de
Smbolos Utilizados).
Las variables tambin pueden clasificarse en distintas clases. En los libros de estadstica podrn
encontrarse clasificaciones diferentes, pero todas, excepto por lo que aqu mencionaremos,
pueden reducirse a dos categoras: variables cualitativas y variables cuantitativas. Adems,
2
como se ver en los siguientes temas, es esta distincin la que ms nos interesa para el anlisis
estadstico.
Las variables cualitativas, como su nombre lo expresa, son aqullas que se refieren a una
cualidad, es decir, a una caracterstica o atributo, a la calidad de algo. Estos atributos son
mutuamente excluyentes. El sexo, el lugar de nacimiento, la presencia de un sntoma, son
ejemplo de ello: se pertenece a un sexo o a otro, se puede nacer en un lugar o en otro, se
tiene o no un sntoma, pero no se puede tener ambas condiciones a la vez (son mutuamente
excluyentes). En realidad, en contraste con la definicin de variable que se dio anteriormente,
estas no manifiestan una cantidad o magnitud, su variabilidad est en trminos de la presencia
o ausencia de una caracterstica.
Las variables cuantitativas son aquellas cuya magnitud puede expresarse en una escala
numrica y son de dos tipos: las continuas y las discontinuas. Variables discontinuas son las
que se refieren a magnitudes que nicamente pueden tomar valores enteros en una escala:
el nmero de embarazos, el nmero de leucocitos, el nmero de pacientes tratados. Estas
variables tambin se conocen como "discretas", trmino inapropiado en espaol, producto de
una psima traduccin del ingls. Las variables continuas son las que pueden tomar cualquier
valor entre dos puntos de una escala continua. Como es conocido por cualquier persona que
haya cursado la escuela secundaria, la cantidad de valores que puede haber entre estos dos
puntos es infinita, y la precisin con que se pueda medir la variable depender del instrumento
de medicin. Ejemplos de estas son: la talla (longitud), la edad (tiempo), la presin, los
volmenes.
Debe sealarse que algunos autores utilizan la clasificacin de las escalas para referirse a las
variables; algunos otros usan denominaciones distintas a las de arriba. Sin embargo, lo ms
comn es emplear la terminologa que aqu presentamos, adems de ser la ms clara.
4
Adicionalmente, es conveniente sealar que las variables cuantitativas pueden ser tratadas
como si fueran cualitativas; esto es, en ocasiones ciertos niveles de una variable pueden ser
asociados a atributos o cualidades. Por ejemplo, si tomamos la presin arterial sistlica
(variable continua) de una persona, podemos clasificarla como hipotensa, normotensa o
hipertensa (variable cualitativa).
Asimismo, podrn encontrarse en distintos libros otras categoras de variables. Una muy
comn es la de variable aleatoria. Esta se refiere a que existen magnitudes variables cuyos
cambios estn dados al azar (por ejemplo, si medimos en repetidas ocasiones y bajo las
mismas condiciones, los niveles de hemoglobina de un individuo sano, estos variarn de una
ocasin a otra sin un orden predeterminado). Por otro lado, hay otras magnitudes que pueden
variar pero con un orden preestablecido; por ejemplo, la posicin de las manecillas de un reloj
es variable, pero sus cambios no estn sujetos al azar.
Existen tambin las variables conocidas como dependientes e independientes (ver captulo 9),
las cuales pertenecen a la categora de las aleatorias.
Una vez que los datos de una investigacin se han recolectado, por ejemplo, en un
cuestionario, en una historia clnica o en algn otro tipo de registro, se concentran ya sea
sobre papel o, ms comnmente en la actualidad, en medios electrnicos. Para esta ltima
opcin existen diferentes formas de hacerlo:
- utilizando programas especiales para la "captura" (segn la terminologa ms comn)
de los datos, como dBase , Paradox , FoxPro o Access entre otros;
- en hojas (o "cuadernos") de clculo como Excel o Quattro Pro ;
- o bien en programas especiales para anlisis estadstico como SPSS .
La ventaja que supone el primer tipo de programas es que, con diferencias entre ellos,
permiten un mayor control o "validacin", de la captura, lo que reduce las oportunidades de
errores; los otros permiten realizar anlisis directos de la informacin, ya sean numricos,
tabulares o grficos. Por lo regular, las bases creadas en los dos primeros tipos de programas
deben ser "exportadas" a los especializados en estadstica para llevar a cabo dichos anlisis o
al menos hacerlos con mayor facilidad. Esto no representa mayor problema, pues prctica-
mente todos los distintos formatos de archivos son intercambiables. Esto ltimo depende de
las versiones de los programas en que hayan sido creados y de otras limitaciones particulares
que no cabe describir aqu.
5
Una vez que se ha creado la base de datos (como en el ejemplo 1.1) lo que se desea es
examinarla para descubrir las caractersticas que posee en trminos de la magnitud que
alcanzan las distintas variables o de sus tendencias. En dicho ejemplo, esta inspeccin no sera
difcil, pues contiene pocas observaciones (28) y la totalidad de la informacin podra
apreciarse en una sola ojeada. An as, cuando se vaya realizar el anlisis y la discusin de
los resultados, siempre ser conveniente que los datos se presenten en forma resumida para
facilitar la exposicin de los hallazgos y de las ideas que resulten de ellos; esto se vuelve ms
imperioso conforme el nmero de observaciones crece.
Previamente a la popularizacin de los recursos electrnicos con que ahora contamos, la cual
se dio sobre todo durante los ltimos 30 aos del siglo XX, primero con las calculadoras que
incluyeron funciones estadsticas y luego con las computadoras personales, la construccin
idnea de una distribucin de frecuencias era un asunto de la mayor importancia,
especialmente cuando el nmero de observaciones era grande y las variables eran continuas.
Esta importancia radicaba en el hecho de que, no habiendo otros recursos ms sofisticados
para el comn de los investigadores que la regla de clculo o el baco, an los anlisis ms
sencillos podan entraar una gran dificultad y una enorme paciencia. Para contender con
estos obstculos se idearon tcnicas que, trabajando con datos resumidos (el trmino tcnico
es "agregados"), permitan llevar a cabo los anlisis requeridos. Estas tcnicas se basaban en
la construccin de distribuciones de frecuencias con un determinado nmero de intervalos de
valores y una amplitud conveniente de tales intervalos. Actualmente, a no ser que uno se
encuentre en la miseria tecnolgica, estas tcnicas han dejado de tener utilidad, pero an se
pueden encontrar en algunos libros de estadstica, por si acaso. Este manual no los abordar.
1. TTULO. Todo cuadro debe tener un ttulo que diga el "qu" (de qu se trata, a qu
tema se refiere), el "dnde" (pas, institucin, comunidad en donde se obtuvo la
informacin) y el "cundo" (fecha, ao); los dos ltimos aspectos son menos
importantes cuando se presentan resultados de experimentos realizados en un
laboratorio, pero son esenciales en los trabajos de campo. Es nuestra la obligacin
librar al lector de la necesidad de recurrir al cuerpo del texto para conocer esta
6
comunicacin de hallazgos. Por otro lado, los cuadros cuyos datos no son producto del
estudio que se est presentando, nunca van en "resultados" sino en los apartados de
antecedentes, discusin o conclusiones.
Por otro lado, los recursos electrnicos actuales han conducido al manoseo de las representa-
ciones grficas y, lo que es peor, de las representaciones incorrectas, pues con excesiva
frecuencia se ignoran los principios fundamentales de su construccin idnea, indispensables
para dar una impresin correcta de los hallazgos de un estudio y para orientar los anlisis y
las conclusiones.
Debemos recordar que una grfica est basada en lo que se conoce como sistema rectangular
cartesiano el cual consiste en un marco de referencia con dos lneas rectas, llamadas ejes, una
horizontal y otra vertical que se cruzan, formando un ngulo recto en un punto llamado
origen. Al eje horizontal se le conoce como eje de las abscisas o eje de las x y al vertical como
eje de las ordenadas o eje de las y. Usualmente, al origen se le asocia el valor 0 (cero) y los
valores de x son positivos a la derecha del origen y negativos a la izquierda, mientras que los
valores de y son positivos hacia arriba del origen y negativos hacia abajo (grfica 1.2).
8
Existen excepciones a lo anterior, por ejemplo, el sistema oblicuo cartesiano en el que los ejes
no se cruzan en ngulo recto o aqullas en que los valores de y, positivos o negativos, se
invierten respecto a lo dicho arriba, pero su uso es muy poco frecuente.
Los ejes dividen el espacio en cuatro cuadrantes: el primero, donde los valores de x y de y son
positivos; el segundo, donde los valores de x son negativos y los de y positivos (se numeran
en sentido contrario a las manecillas del reloj); el tercero, en donde x y y tienen valores
negativos; y el cuarto, en donde x es positiva y y es negativa. De esta forma, cualquier par de
valores (x,y), conocidos como coordenadas, puede ser ubicado en el sistema cartesiano. Lo
ms comn, pero no siempre, es que se representen nicamente los valores positivos de
ambos ejes, es decir, el primer cuadrante.
Para una correcta representacin grfica, hay que tomar en cuenta dos principios bsicos: que
los ejes deben ser proporcionales en tamao, siendo el de las x ligeramente mayor que el de
las y en una relacin de 3 a 2, es decir, por cada 3 cm del eje de las x el de las y medir 2 cm
o, en todo caso podrn ser iguales (1 a 1); y que el eje de las y deber iniciar siempre en cero.
Cuando no se cumplen estas dos condiciones, la impresin visual que se ofrezca ser
engaosa (vase el ejemplo 1.2).
Por otro lado, as como hay dos categoras bsicas de variables existen dos clases de grficas
que se les asocian. Para las variables cualitativas, las grficas de barras y, para las cuantitati-
vas, los histogramas o bien su equivalente, los polgonos de frecuencias.
9
Cuando se desea hacer una representacin grfica de una variable cualitativa, hay que tomar
en cuenta que sus categoras no son numricas y que, en consecuencia, su representacin
visual no corresponde a lo dicho respecto al sistema cartesiano ya que no existe ningn eje
de las x y nicamente se habrn de representar las frecuencias (absolutas o relativas) de cada
categora. Estas son las grficas de barras una muestra de las cuales se presenta enseguida con
los datos del ejemplo 1.1:
Ntese que las categoras, representadas en sentido horizontal, no corresponden a ningn eje
cartesiano, pues son cualitativas y que bien se podra invertir el orden en que se presentan sin
que por ello se alterara la representacin visual correcta. Aqu lo nico importante es la altura
que alcanzan las barras, pues ello nos indica su frecuencia. Por lo tanto, no tenemos
preocupaciones por la proporcin de los ejes (no existen).
Las barras pueden estar alejadas unas de las otras, como arriba, o juntas:
10
Lo que se debe buscar en estos casos es obtener una representacin agradable a la vista, por
ejemplo:
11
Otra forma de representar este tipo de informacin es por medio de las grficas de pastel
(tambin llamadas de sectores) que, aunque comnmente no se consideran apropiadas para
un trabajo cientfico o acadmico, pueden resultar muy demostrativas:
Lo que resulta por completo inaceptable es la utilizacin de las llamadas grficas en tercera
dimensin:
12
Estas grficas han alcanzado gran popularidad por la facilidad con que se pueden construir
y por lo atractivas que parecen ser. En un trabajo cientfico o acadmico, o en cualquier
trabajo medianamente serio, se debe prescindir de ellas siempre pues si uno las examina con
cuidado, se puede dar cuenta de que:
a. no son en tercera dimensin (es slo apariencia);
b. no aportan ms informacin. A esto se le conoce tcnicamente como tinta sin datos;
c. confunden, obstaculizando su lectura.
En resumen, nicamente una persona inexperta y mal entrenada utiliza este tipo de grficas.
Finalmente, otra manera informal de presentar las frecuencias de variables cualitativas es por
medio de pictogramas en los cuales las barras son sustituidas por figuras alusivas al tema que,
apiladas o de distinto tamao, ilustran las frecuencias o valores:
Por su parte, las grficas de las variables cuantitativas deben cumplir con los requisitos del eje
de las y con inicio en 0 y de la proporcionalidad de los ejes (vase el ejemplo 1.2). Los
histogramas son una representacin por medio de rectngulos, que algunas personas
confunden con las barras. Aqu, la diferencia est en que la base del rectngulo corresponde
exactamente a la amplitud de los intervalos que se hayan definido para la variable en cuestin
y su altura a la frecuencia; de esta forma el rea total definida por todos los rectngulos
representa la funcin de la frecuencia y del valor de la variable. Los rectngulos deben estar
contiguos unos a los otros, particularmente en las variables continuas (pero tambin se
acostumbra representar as a las discontinuas):
13
Los mismos datos pueden representarse como un polgono de frecuencias en donde los
puntos medios de los rectngulos (que corresponden a los puntos medios de los intervalos)
se unen con lneas rectas:
Una forma de representacin grfica muy comn, aunque poco utilizada por los novatos, es
la grfica semilogartmica. Esta consiste en transformar el eje de las y, usualmente en escala
aritmtica, a una escala logartmica lo que puede tener ventajas para el anlisis visual de
ciertos fenmenos. Por ejemplo, podemos tener la siguiente serie de datos:
10000
5000
1000
500
100
14
50
10
5
1
0.5
En este cuadro observamos que las magnitudes van desde muy grandes (10,000) hasta muy
pequeas (0.5). Una grfica con escala aritmtica resultara en lo siguiente:
Puede advertirse que los valores menores (a partir de 100) no se observan ya, pareciera que
a partir del valor 5000 el fenmeno cambia pero que sus cambios son muy pequeos y que,
desde el valor 500 estos cambios son imperceptibles; que en realidad se mantiene constante.
Sin embargo el fenmeno, cualquiera que este sea, contina modificndose. Si el eje de las
y es transformado a escala logartmica, la grfica resultante sera la siguiente:
En sta vemos que la representacin de los datos del cuadro anterior es completa, desde los
mayores hasta el menor y que el fenmeno sigue modificndose con la misma tendencia
independientemente de las magnitudes. De hecho, se observa que las modificaciones son tan
importantes, proporcionalmente hablando, cuando los cambios van de 10,000 a 5,000
15
(disminucin de 50 por ciento), como cuando van de 1 a 0.5 (tambin una disminucin del
50 por ciento).
Tambin podrn encontrarse grficas logartmicas, en las que los dos ejes se transforman o,
ms raramente, grficas semilogartmicas en el eje de las x.
Actualmente resulta fcil obtener otros muchos tipos de grficas haciendo uso correcto de los
recursos electrnicos. Estos otros tipos no se vern aqu, excepto por las grficas de
correlacin que se tratarn en el captulo 9.
Ahora observe la siguiente grfica que representa los valores de la tasa de mortalidad infantil
para cada estado de la Repblica Mexicana en 1999. En el eje horizontal se encuentran los
nombres abreviados de los estados:
16
Ahora diga:
- si esta es la forma adecuada de presentar la informacin;
- si la informacin es clara;
- y si, en todo caso, debera presentarse de otra manera.
17
INFORMACIN
PROCEDIMIENTO
En una primera inspeccin de la grfica se podra decir que la proporcin de los ejes est bien
guardada y que, por lo tanto, la impresin visual que nos da esta representacin es correcta.
A partir de lo anterior, se puede hacer una serie de consideraciones y, tal vez, obtener algunas
conclusiones.
Una grfica igual se puede obtener al utilizar un paquete de cmputo especializado en anlisis
estadstico como SPSS .
3. : Eje de las y.
Debe observarse que en la grfica anterior el eje de las y no se inicia en 0 (cero), sino en 40.
Esto implica que si llevsemos el eje hasta cero, la proporcin se perdera por completo,
quedando algo como lo siguiente:
Para una representacin idnea de esta serie de valores, es necesario instruir al programa que
se est utilizando (en este caso, que el eje de las y se inicie en 0) para que nos construya una
grfica correcta, que sera la siguiente:
GENERALIDADES .
Aunque los datos se hayan organizado en cuadros y grficas, generalmente se desea tener
alguna medida nica que describa el conjunto, sin tener que recurrir al anlisis de cada una
de sus categoras o de sus intervalos por separado y que adems permita la comparacin
rpida entre distintas colecciones de datos.
Para tales fines estn las llamadas medidas de resumen cuya utilidad es precisamente reducir
la informacin y presentarla en una sola expresin numrica. Estas medidas pueden ser de
dos clases: aquellas que muestran el valor alrededor del cual los datos tienden a agruparse,
conocidas como medidas de tendencia central; y las que muestran el grado en que esos datos
se diferencian unos de otros o en relacin con algn punto de referencia, conocidas como
medidas de dispersin.
Las medidas de resumen corresponden a lo que en la ciencia se conoce como los principios
de unidad y de diversidad. Estos principios establecen que todas las entidades existentes,
aunque distintas entre s, al final forman parte de un mismo proceso, es decir, que si bien la
materia puede expresarse de distintas maneras, su estructura fundamental, en todos los casos,
es la misma. Con las medidas de tendencia central pretendemos acercarnos, inicialmente de
una manera muy simple, a la indagacin del principio de la unidad. Por el otro lado, si bien
todo lo existente es parte de un mismo proceso, cada entidad tiene sus propias y muy
caractersticas particularidades que la hacen diferente a todas las dems. Con las medidas de
dispersin se intenta el estudio de este principio.
Como puede advertirse, se trata de una medida descriptiva muy simple que no se utiliza en
anlisis estadsticos ms avanzados pues no permite conocer nada acerca de los datos no
contenidos en ella, slo del valor ms frecuente.
22
Cuando en una distribucin dos valores o caractersticas son igualmente los ms frecuentes,
se dice que es una distribucin bimodal. De la misma forma, puede hablarse de distribuciones
multimodales.
2.2. Mediana.
No existe un smbolo universalmente aceptado pero puede utilizarse Md. La mediana es el
valor que toma la observacin central en una serie ordenada de datos (de mayor a menor o
viceversa) y que deja el mismo nmero de casos a cada lado de ella; es decir, el 50 por ciento
de las observaciones tendr un valor menor que la mediana y el otro 50 por ciento un valor
mayor, por lo que tambin se le conoce como percentil 50.
Si n es nmero par, la mediana se define como la media aritmtica (el "promedio") de las dos
observaciones centrales. Se le utiliza para variables cuantitativas, particularmente en caso de
distribuciones asimtricas y para escalas ordinales. Su gran desventaja, igual que la moda, es
que no toma en cuenta la informacin del resto de las observaciones, slo la central o las dos
centrales.
Existen otras medias: la armnica y la geomtrica, las cuales son de uso menos frecuente; por
eso, cuando simplemente se habla de la "media" se entiende que se hace referencia a la media
aritmtica.
Los smbolos utilizados para representar a la media aritmtica son la letra (my o mu
minscula del alfabeto griego) para los datos que corresponden a una poblacin completa y
23
con el smbolo 0 (se pronuncia "equis barra") para los datos de una muestra (vase el captulo
4).
En lo sucesivo, todos los smbolos que utilicen letras griegas se referirn a los valores de toda
la poblacin, mientras que las letras latinas correspondern a los de una muestra. La nica
excepcin la constituye la letra E (sigma mayscula), que indica una suma.
La frmula se lee: la suma de los valores de las xi desde la x1 hasta la ltima (n); dividida por
el nmero total de observaciones.
Por supuesto que en el caso de una muestra, habr que sustituir el valor de por el de 0:
Muchas veces se piensa que sumando las medias (E0 i) y dividindolas entre el nmero total
de ellas (n0 ), bastara para obtener la media ponderada (0 p). Sin embargo, este procedimiento
24
puede seguirse nicamente cuando el nmero de observaciones (ni) en que est basada cada
una de las medias parciales es igual. Si este nmero ni es distinto para las medias parciales,
entonces se necesita ponderar:
E0 ini
L0 P =
______
En
As, una media de elevada magnitud, pero obtenida con pocas observaciones, ver disminuido
su valor relativo. De igual manera, una media pequea obtenida de un gran nmero de datos,
incrementar su valor relativo (vase el ejemplo 2.3).
25
INFORMACIN
En un estudio realizado en una clnica prenatal, se obtuvieron los antecedentes sobre la edad
y la paridad de 54 mujeres embarazadas. Los resultados son los siguientes:
PROCEDIMIENTO
1. Obtenga la Moda:
como la mayor cantidad de mujeres tiene una paridad igual a cero (29 mujeres, o 53.7 por
ciento del total), entonces
Mo = 0 partos
2. Obtenga la Mediana:
se dijo que la mediana es el valor que toma la observacin que deja la mitad de los casos por
encima de ella y la mitad por debajo, y que para saber cul es esa observacin se utiliza la
frmula:
(n + 1)sima
26
n = 54
que es par, por lo cual se encontrarn dos observaciones centrales, la nmero 27 y la nmero
28 (al aplicar la frmula tendramos 27.5), en estos casos se debe tomar el valor "promedio"
de las dos observaciones centrales. Como en el ejemplo ambas observaciones tienen valor
igual a cero partos, entonces:
Md = 0 partos
27
INFORMACIN
PROCEDIMIENTO
0 = Exi / n
n = 19 voluntarios
Ex= 279 mg/100ml
0 = Exi / n
= 279/19
28
INFORMACIN
En este ejemplo se muestra cmo la ponderacin de una media de medias, obtenida a partir
de diferentes medias parciales arroja resultados totalmente distintos a los que se obtienen
cuando no se sigue el procedimiento correcto. El autor del artculo no ponder las medias y
finalmente lleg a conclusiones errneas. El cuadro se reproduce parcialmente:
3 7 0 0 0 0
4 55 3.5 6.1 4.56 7.87
5 74 4.71 5.99 5.34 7.19
6 37 4 6.9 4.32 7.85
Total 173 3.05 4.74 3.55 5.72
Media 3.98 5.98 4.66 7.26
Ponderada
PROCEDIMIENTO
y luego dividi entre 4, que es el nmero de las medias parciales, sin tomar en consideracin
que cada una de estas estaba basada en un distinto nmero de observaciones:
12.21 / 4 = 3.05
obteniendo una media de medias incorrecta. Lo mismo puede observarse en las otras
columnas.
Obsrvese cmo los resultados correctos (medias ponderadas) difieren sustancialmente de los
que el autor obtuvo.
31
MEDIDAS DE DISPERSIN .
2.3. RANGO .
Es una medida de dispersin que consiste en obtener la diferencia entre los valores de las dos
observaciones extremas de una distribucin, es decir la de mayor valor con respecto a la de
menor valor:
L Rango = x mx - xmn
y es una medida poco utilizada, porque no toma en cuenta la variabilidad que puede haber
en las observaciones dentro de los dos extremos, es decir, se pierde informacin; adems, es
comn que estos valores extremos sean los menos estables, esto es, que se modifiquen
fcilmente, pues el rango tiende a aumentar conforme aumenta el nmero de observaciones.
donde s es la varianza.
E(x-0)2 es la suma de todas las diferencias entre cada observacin y la media; cada
diferencia se eleva al cuadrado y luego se hace la suma.
n-1 el nmero total de las observaciones, menos una (lo que se conoce en estadstica
como grados de libertad).
32
El que cada diferencia de las observaciones con respecto a la media se eleve al cuadrado,
responde al hecho de que habr observaciones mayores que la media (la diferencia ser de
signo positivo) y habr otras menores que ella (la diferencia ser de signo negativo); si se hace
la suma de ellas, E(x-0), sta ser siempre igual a cero. Por lo tanto, al elevarlas al cuadrado,
se cancelan los signos negativos y puede hacerse la suma.
Los grados de libertad (n-1) se utilizan particularmente para el caso de muestras pequeas
(donde el total de las observaciones, n, es menor que 30), pero como pueden ser utilizados
tambin en muestras grandes (n > 30) sin afectar mayormente el resultado, casi siempre es
esta expresin la que se usa.
Si la principal ventaja de la varianza es que toma en cuenta la informacin provista por todas
y cada una de las observaciones y que claramente puede entenderse como un "promedio" (la
media aritmtica) de las desviaciones respecto a la media, su desventaja es que las unidades
en que se expresa son las unidades originales elevadas al cuadrado (por ejemplo kg), lo que
dificulta su interpretacin en trminos del problema real estudiado.
Estos valores corresponden a la "distribucin normal" (ver el captulo 3), son aproximados, se
observan con mayor exactitud en muestras grandes y se discutirn en prximos temas.
Existe una frmula equivalente para obtener la varianza o la desviacin estndar, la cual
puede utilizarse en caso de no contar con ningn instrumento electrnico (al menos con una
33
INFORMACIN
PROCEDIMIENTO
= /[23.56 / 18]
= /1.31
= 1.14 mg de Hb /100 ml
3. Obtenga el intervalo:
si el intervalo medido por 0 1s incluye al 68% de las observaciones, entonces se tendra
que:
14.68 1.14
35
define un intervalo que est entre 13.54 mg/100 ml (como lmite inferior, que resulta de restar
una desviacin estndar a la media) y 15.82 mg/100 ml (lmite superior, que resulta de sumar
una desviacin estndar a la media). Con esto, se puede esperar que trece observaciones
(68%), de un total de diecinueve, caigan dentro del intervalo y siete fuera de l. Al revisar los
datos se puede verificar que el resultado es el predicho.
36
RAZONES Y PROPORCIONES .
2.5. VARIABLES CUALITATIVAS.
Las medidas descritas anteriormente son aplicables slo a variables cuantitativas. Cuando se
trata de las cualitativas, lo que interesa es conocer la frecuencia con que se presenta cierta
caracterstica en relacin con el total de observaciones (n), esto es la proporcin (B, p):
Lp=r/n
En donde n es el nmero total de observaciones y
r es el nmero de observaciones con la caracterstica de inters.
y L
37
INFORMACIN
PROCEDIMIENTO
Si se desea obtener, por ejemplo, la proporcin de mujeres con paridad igual a 1, entonces:
1. Identifique los datos necesarios:
n = 54 mujeres (el total estudiado).
r = 17 mujeres con paridad igual a 1.
2. Obtenga p y q:
Proporcin de mujeres con paridad igual a 1:
p = r/n
= 17/54
= 0.3148 31.48%
q=1-p
= 1 - 0.3148
= 0.6852 68.52%
Ntese que
p+q=1
esto es
En nuestro caso, la veremos de manera intuitiva (como se dice en la jerga matemtica, para
distinguirlo del anlisis formal) y muy elemental, pero que proporcione los elementos
indispensables para entender las bases estadsticas.
Una definicin sencilla de probabilidad puede ser: la proporcin de veces que un suceso (o
un resultado) ocurre en una larga serie de observaciones.
El primer elemento de esta definicin plantea a la probabilidad como una proporcin (p) que,
como tal, no puede tomar valores menores que 0 ni mayores que 1 (vase el captulo 2; a esto
se le conoce como el Axioma 1 de Kolmogorov). Siendo la probabilidad de que un resultado
no ocurra (q):
q = (1 - p)
La suma de todos los resultados posibles es la probabilidad total, igual a 1 (o 100%; Axioma
2 de Kolmogorov):
p+q=1
1
Duncan RC et al. (1980). Bioestadstica. Ed. Interamericana. Mxico.
40
Debe considerarse que la frecuencia con que se presente un resultado tiende a variar, tanto
con cada serie de observaciones (de una serie a otra), como dentro de una misma serie
conforme aumenta el nmero de las observaciones. Pero al incrementase el nmero de series
(de pruebas o de experimentos) la probabilidad tiende a estabilizarse.
Dentro de las probabilidades, tenemos dos tipos: las condicionales y las independientes. Su
distincin es importante, ya que las reglas para su clculo y su importancia para el anlisis
estadstico son distintas en cada caso.
donde la probabilidad de que un hijo cualquiera sea del sexo masculino es p(m) = 0.5
(aunque esto no es totalmente cierto, pues se sabe que nacen ms hombres que mujeres, en
una razn aproximada de 103 a 105 hombres por cada 100 mujeres y que mueren ms
hombres que mujeres, pero se tomar as con fines de ilustracin del tema), y en consecuen-
cia, la probabilidad de que sea del sexo femenino es p(f) = 0.5. De esa distribucin se puede
construir una distribucin de probabilidades en la que:
- la probabilidad de que los dos hijos sean varones es de (1 de los 4 posibles resultados),
o sea 0.25;
- de que ambas sean mujeres es tambin de (o 0.25); y
- de que sean de distinto sexo, sin importar el orden, es de (o 0.5).
Ntese que dentro de una familia en particular, el sexo de los hijos no necesariamente es
independiente, es decir, existen familias en las que predominan los hijos hombres y otras en
42
las que predominan las hijas mujeres. Pero en la poblacin de familias (en una larga serie de
observaciones) se ver una tendencia al equilibrio.
y lo mismo cabe para los otros casos, por lo que la distribucin de probabilidad sera:
es decir:
p + 2pq + q = 1
lo que es igual a:
(p + q)2 = 1
Si se tratase de familias cada una con tres hijos, tendramos la siguiente distribucin:
Total 1 1 1
donde tendramos:
es decir:
p3 + 3pq + 3pq + q3 = 1
lo que es igual a:
(p + q)3 = 1
De esta manera, podramos seguir definiendo las probabilidades de ocurrencia para cualquier
fenmeno (variables cualitativas y variables discontinuas) de cualquier magnitud.
Se debe notar que cualquier expresin del binomio (p + q) es siempre igual a 1, esto es:
( P + Q) = 1
N
Cuando el valor de n crece, esta forma de clculo resulta, por supuesto, inapropiada puesto
que el nmero de resultados posibles es cada vez ms grande. En tales circunstancias se utiliza
el siguiente modelo:
L
Donde p(r) es la probabilidad de que se presenten r resultados con la caracterstica de inters.
n! es el factorial de n.
B es la probabilidad previamente definida.
As, por ejemplo, la probabilidad de que en familias de 3 hijos (n = 3), encontremos familias
en que 2 de ellos sean del sexo masculino (r = 2), sin importar el orden en que se presentan,
siendo que la probabilidad de que un hijo cualquiera sea del sexo masculino es de 0.5 (B =
0.5), es:
n! = 3! = 3*2*1 = 6
44
r! = 2! = 2*1 = 2
(n-r)! = (3-2)! = 1! = 1
6
p(m,m,f) = _____ 52 * 0.53-2
2 * 1 0.
p(m,m,f) = 3 * 0.25 * 0.5 = 0.375
Esta distribucin de probabilidades, propuesta alrededor del siglo XVII, originalmente fue
ideada para dar cuenta de sucesos como eran las oportunidades de tener xito en los juegos
de azar; de aqu viene la tan arraigada costumbre de que en muchos libros de estadstica se
le ilustre con ejemplos de sa clase (juegos de dados, de baraja, etc.). En realidad, sus
fundamentos matemticos son mucho ms complejos que lo presentado aqu, pero
consideramos que con esto se puede tener una idea suficiente para los propsitos de este
manual.
Grfica 3.1.
encontrar individuos con una talla de exactamente 172 cm en una poblacin dada, es
prcticamente nula, ya que el nmero de valores posibles entre dos puntos de una escala
continua es infinito), ms bien se habla de la probabilidad referida a un intervalo de esa
escala (por ejemplo, la probabilidad de encontrar individuos con una talla entre 170 y 174
cm).
b) La curva de la distribucin normal tiene forma de campana, con altura mxima en el
valor correspondiente a (vase la grfica 3.2).
c) La curva de la distribucin normal es simtrica alrededor de y por lo tanto, la media
aritmtica la divide en dos partes iguales. Por esa misma razn, en la curva normal la
media, la mediana y la moda tienen el mismo valor (vase la grfica 3.2).
d) Siendo una distribucin de probabilidades, el rea total bajo la curva representa a la
probabilidad total (la cual es igual a 1), por lo que la media, al dividir la distribucin en dos
partes iguales, deja dos reas con valor de 0.5 a cada lado de ella. Sin embargo la curva
es asinttica, por lo cual nunca se puede determinar la probabilidad absoluta (vase la
grfica 3.2).
Grfica 3.2.
e) La probabilidad (rea bajo la curva) entre los lmites del intervalo definido por:
1F contiene al 0.68 (68 por ciento) del rea bajo la curva;
1.96F contiene al 0.95 (95 por ciento) del rea bajo la curva; y
2.58F contiene al 0.99 (99 por ciento) de rea bajo la curva (vase
la grfica 3.3).
46
Grfica 3.3.
Estos valores han sido definidos a travs de clculo integral. Debe recordarse que en el
captulo anterior se dieron unos valores aproximados, que pueden ser utilizados en
estimaciones rpidas, sin embargo, los que ahora mostramos son los que se usan para la
presentacin de resultados y su anlisis.
f) La curva de distribucin normal est determinada por dos valores: y F (vase la grfica
3.4). La media define el lugar que ocupa una distribucin en la escala, es decir, al
modificarse la media se modifica la posicin de la distribucin en la escala, por ello tambin
se le conoce como medida de posicin; mientras que la desviacin estndar determina el
grado de apuntamiento, llamado curtosis, que tenga una distribucin.
Grfica 3.4.
47
Adems, se observa que las tres distribuciones son muy distintas unas de las otras, aun
cuando tienen la misma media, por lo que podemos concluir que para la correcta
descripcin de una distribucin siempre debern referirse tanto las medidas de tendencia
central como las de dispersin.
En siglos anteriores, este modelo deba ser aplicado para "normalizar" las observaciones y
obtener los valores de la probabilidad (rea bajo la curva) para la observacin de un suceso.
En un inicio (siglo XVIII), esto resultaba ser un problema de considerable magnitud, pues para
cada tamao de muestra (n) y para cada valor de la variable (x) haba que realizar las
operaciones necesarias; y si por acaso se modificaba, aunque fuera un poco, el tamao de la
muestra o alguno de los valores, lo hecho anteriormente ya no era til (en la actualidad los
medios electrnicos lo han resuelto por completo). Se pens entonces en construir una
distribucin modelo que pudiera ser aplicada en todos los casos: esta es la distribucin normal
estndar, en la cual se trata de determinar la distribucin de una variable imaginaria,
48
identificada como z, en lugar de la variable observada x, y que siempre tiene una = 0 y una
F = 1. Con esto se simplific considerablemente el modelo anterior, y se pudo definir la
probabilidad bajo la curva para cada valor de z (vase la tabla 1 del Apndice).
c) Pero como los valores de n podan cambiar, el problema persista, por lo que pensaron
en algn valor que pudiera ser de aplicacin general. Este valor era el rea total bajo la
curva, la probabilidad total, es decir, 1.
L
e) Una vez hecho lo anterior, se determin el rea bajo la curva para distintos intervalos de
la distribucin de esta variable imaginaria z (vase la tabla 1 del Apndice).
f) Ahora que ya se tena una distribucin (distribucin normal estndar, de naturaleza
terica), cuyas reas bajo la curva (probabilidades), para distintos intervalos, eran
conocidas, slo restaba aplicarla a cualquier distribucin emprica, observada. Pero la
pregunta es cmo se puede lograr esto?
g) Hay que tomar en cuenta que la variable z est expresada en unidades de desviacin
estndar, pues si F = 1, entonces cuando z = 1= F. En otras palabras, z expresa el
alejamiento, la diferencia con respecto a en unidades de desviacin estndar. Por
49
L
As, se hizo el trabajo una nica vez y para siempre: la probabilidad entre dos valores
observados (x1, x2) puede encontrarse por la probabilidad entre z1 y z2 (vase el ejemplo 3.1).
No es extrao que se desconozcan los valores de y de F por lo que en su lugar debern
usarse los de la muestra.
n=2 p
p=0.5
p(m=0) 0.25
p(m=1) 0.5
p(m=2) 0.25
Total 1
n=3 p
p=0.5
p(m=0) 0.125
p(m=1) 0.375
p(m=2) 0.375
p(m=3) 0.125
Total 1
Si tomsemos familias con cinco hijos, el nmero de rectngulos (de posibles resultados) ser
mayor (y cada vez mas estrechos) pero contienen, al sumarlos, la misma probabilidad total:
n=5 p
p=0.5
p(m=0) 0.0313
p(m=1) 0.15625
p(m=2) 0.3125
p(m=3) 0.3125
p(m=4) 0.15625
p(m=5) 0.0313
Total 1
51
n=8 p
p=0.5
p(m=0) 0.004
p(m=1) 0.0313
p(m=2) 0.10937
p(m=3) 0.21875
p(m=4) 0.27344
p(m=5) 0.21875
p(m=6) 0.10937
p(m=7) 0.0313
p(m=8) 0.004
Total 1
En otros fenmenos el nmero de posibles sucesos (n) puede ser ms grande. Si la cantidad
de ocurrencias posibles es grande, la distribucin binomial va tomando una forma parecida
a la distribucin normal, entre mayor sea n ms semejante ser aquella a esta, pero nunca
llegar a ser continua. Sin embargo, podemos aplicar lo que sabemos de la normal a la
binomial.
52
Ntese que r hace las veces de x, y nB las de la media, mientras que el denominador es la
desviacin estndar (vase el captulo 2). Despus de lo cual, usando la tabla 1 del Apndice
podemos encontrar la probabilidad correspondiente.
Sin embargo, es necesario echar mano de lo que se conoce como correccin por continuidad,
dado que estamos tratando una variable cualitativa, o una discontinua, con un modelo para
variables continuas pues, de no hacerlo, las estimaciones tendrn un considerable margen de
error:
L
en ocasiones, en lugar de B se utiliza el valor de p (cuando tratamos con muestras).
53
lo que de acuerdo a la tabla 1, significa que el rea bajo la curva por encima del valor de z =
1.06, es igual a 0.1446, lo que resulta prcticamente igual a lo obtenido con la distribucin
binomial. En la actualidad, con los medios electrnicos disponibles, este tipo de conversiones
no son necesarias para el clculo de probabilidades, pero es conveniente tenerlas en mente
porque se utilizan para anlisis que posteriormente se abordarn y que no permite hacer la
distribucin binomial.
n=7 p
p=0.3
p(7) 0.00022
p(6) 0.00357
p(5) 0.025
p(4) 0.09724
p(3) 0.22689
p(2) 0.31765
p(1) 0.24706
p(0) 0.08235
Total 1
INFORMACIN
PROCEDIMIENTO
= -16 / 23.6
= -0.68
= 24 / 23.6
= 1.02
56
N.B.: el signo negativo o positivo de z indica solamente el lado de la curva en el cual se est
trabajando; si es negativo, el valor se encuentra a la izquierda de la media (el valor en cuestin
es menor que la media), si es positivo, a la derecha (es mayor que la media). Como la curva
es simtrica, la tabla 1 del apndice nicamente muestra los valores positivos.
a) si z = -0.68, se busca en la primera columna de la tabla el valor 0.6, en esa fila se busca
el valor correspondiente a la columna encabezada por el nmero 8 (segundo decimal de
z. La tabla nos muestra que el rea bajo la curva que est entre = 0 y z = 0.68 equivale
a 0.2518 (o al 25.18% del total del rea bajo la curva).
Grfica A
Sin embargo, lo que interesa es el rea que se encuentra por debajo de z = -0.68, es decir,
la proporcin de los pacientes con una presin sistlica menor que 120 mmHg:
Grfica B
57
Entonces, si se sabe que el rea a cada lado de la media es igual a 0.5 (o al 50%):
Grfica C
= 0.2482
La respuesta es que la proporcin de individuos que se espera encontrar con una presin
sistlica menor que 120 mmHg es 0.2482 o 24.82%.
Grfica D
Pero lo que interesa es el valor del rea por encima de z = 1.02, es decir, la proporcin de
los pacientes con una presin sistlica mayor que 160 mmHg:
58
Grfica E
z = 0.5 - 0.3461
= 0.1539
La respuesta es que la proporcin de pacientes que se puede esperar encontrar con una
presin sistlica mayor que 160 mmHg es 0.1539 o 15.39%.
c) Encuentre las respuestas a las otras preguntas. En la ltima, note que se debe proceder
en sentido inverso (primero, encontrar el valor de z y despus el de x, que es la interrogan-
te.
INFORMACIN
PROCEDIMIENTO
por lo tanto
z = (40-0.5)(100*0.3692) / /[100*0.3692*0.6308]
= 2.58 / /23.289
= 2.58 / 4.8259
= 0.53
Como el rea que se pide es la que queda por encima de este valor, entonces: 1 - 0.2019 =
0.7981, por lo que se concluye que de estos 100 pacientes, se puede esperar que 79.81 por
ciento tengan hemorragia grave gastrointestinal.
60
Debido a que al tomar una muestra se estudia slo parte de la poblacin, las conclusiones que
de ella se obtengan siempre tendrn un grado de error; entonces, por qu llevar a cabo un
muestreo y no un censo?:
a) porque con frecuencia se trabaja con poblaciones infinitas y por lo tanto no es posible
llevar a cabo un censo, puesto que la poblacin siempre estar cambiando y en
consecuencia no se podr determinar el nmero total de sus elementos. Ejemplo de ellas
es el grupo de pacientes que requiere de un tratamiento particular, porque siempre habr
aquellos que dejen de necesitar el tratamiento (ya sea porque se curaron o porque
fallecieron) y otros que ingresan al grupo porque han adquirido la enfermedad;
b) porque al trabajar con una poblacin finita (aquella en la cual el nmero de elementos
puede ser definido) esta resulta demasiado grande o bien se desea ahorrar trabajo, tiempo
y costos.
c) o bien, aunque en ocasiones se est en capacidad para levantar un censo y se cuenta con
los recursos suficientes, al tomar una muestra parte de esos recursos puede ser mejor
aprovechada en la indagacin de otros problemas o en ahondar en ciertos aspectos del
asunto central.
Pero, como se dijo arriba, ya que slo se ha estudiado a una parte de la poblacin y no a toda
ella, las estimaciones tendrn un grado de error.
En otras palabras, nunca se podr esperar que las estimaciones muestrales sean iguales a los
valores reales, o parmetros, en la poblacin (0 =
/ ; p =/ B), si acaso sern aproximadamente
iguales. De hecho, si los valores obtenidos a partir de una muestra fuesen los mismos que los
de la poblacin, no lo sabramos, pues desconocemos estos ltimos, lo cual es el motivo del
estudio.
Es importante reconocer que al tomar una muestra pueden existir dos tipos de errores:
a) El error aleatorio (error de muestreo, error experimental) que surge debido al hecho
mismo de que estamos observando precisamente a una parte de la poblacin y no al total.
Este tipo de error tiene dos importantes caractersticas: conforme aumenta el tamao de la
muestra (n), el error disminuye (en un censo no hay error de muestreo); y adems puede
ser medido.
b) El error no aleatorio (error sistemtico), que se debe a la introduccin de sesgos en la
seleccin de la muestra, el cual constituye un descuido o una tendencia por parte del
observador, aunque tambin se puede deber al sujeto observado. Este tipo de error no
disminuye al aumentar el tamao de la muestra (no desaparece ni aun cuando se levanta
un censo) y no puede ser medido.
Dadas las caractersticas de ambos tipos de error, es importante reducir el primero y saber
evitar el segundo. Ello depender de la forma en que las unidades muestrales sean
seleccionadas. Aqu se tratarn nicamente los aspectos relacionados con el error de muestreo,
los errores sistemticos son motivo de estudio metodolgico ms que estadstico.
Una de las preocupaciones ms frecuentes cuando se toma una muestra, es que esta sea
representativa de la poblacin de la cual procede, esto es, que de alguna manera refleje
adecuadamente las caractersticas de la poblacin. Algunos autores prefieren no referirse a este
trmino por las dificultades implcitas que plantea. En todo caso la nica manera de "asegurar
la representatividad" consiste en la toma de una muestra aleatoria. Es decir, lo importante en
el muestreo es la forma en que se ha llevado a cabo.
La seleccin aleatoria se basa en que cada una de las unidades muestrales tiene la misma
oportunidad de ser elegida. Para ello, antiguamente se utilizaban las tablas de nmeros
aleatorios que an contienen los libros de estadstica (vase la tabla 2 del Apndice);
actualmente es fcil auxiliarse de distintos recursos electrnicos como son las calculadoras
cientficas de bolsillo o distintos programas de cmputo.
62
El uso de esta tabla es sencillo: en primer lugar se decide la cantidad de dgitos que han de
formar los nmeros que se seleccionarn; por ejemplo, si la poblacin de la cual se ha de
extraer la muestra est constituida por 500 elementos, se requiere de tres dgitos, por lo que
se numerarn desde 001 hasta 500; se decide de antemano el sentido en el que se ha de leer
la tabla (de izquierda a derecha, de derecha a izquierda, de abajo hacia arriba, o cualquier
combinacin que se desee); se escoge al azar el punto de inicio en la tabla y se procede a
seleccionar los nmeros.
Con instrumentos del tipo de las calculadoras cientficas de bolsillo se siguen los mismos
principios. Por lo general, estas calculadoras tienen una tecla ("random" o algo similar) que
produce nmeros en el formato de tres decimales. Tales nmeros son "semialeatorios" pues
son producidos a partir de un nmero "semilla". De cualquier forma, es necesario definir de
antemano cmo habrn de ser utilizados los resultados. Algunos programas de cmputo, como
Excel , pueden producir nmeros aleatorios con una amplia variedad de controles por parte
del usuario.
Otro tipo de seleccin es la sistemtica, en donde se toman las unidades muestrales que se
encuentran a cada determinado nmero de elementos que integran el universo (por ejemplo,
cada tercer paciente). Esto puede hacerse nicamente si el nmero de elementos selecciona-
dos es grande y la homogeneidad entre ellos no es importante para el estudio. Adems, se
puede "aleatorizar" al dejar al azar el nmero que resulte como punto de partida.
Suponiendo que se toman muchas muestras (i muestras) todas del mismo tamao n y de la
misma poblacin, se pueden obtener entonces sus respectivas medias 0 i. Si estas resultan ser
similares entre s, se puede decir que el error de muestreo es pequeo. Si las 0 i difieren
63
De esta manera, el error de muestreo ser el resultado de la relacin entre dos factores: el
tamao de la muestra y la variabilidad de las observaciones, y esto se puede expresar como
sigue:
En esta relacin se puede ver que el resultado aumenta si aumenta la varianza y disminuye
si aumenta el tamao de la muestra.
o ms comnmente:
L EE0 =
el cual representa la magnitud del error de muestreo.
64
Grfica 4.1.
Por lo general, como el valor de F se desconoce, deber ser substituido por el valor de la
muestra (s):
L EE0 =
Por ltimo, si la distribucin de las 0 i tiende a ser una distribucin normal, entonces podemos
aplicar las propiedades de sta a la distribucin de las medias muestrales. Esto significa que
el intervalo definido por:
1.96 F que incluye al 95% de las observaciones (vase el captulo 3; grfica 4.2).
Grfica 4.2.
65
o ms comnmente:
L
Por lo general, como los valores de B se desconocen, debern ser sustitudos por el valor de
la muestra (p):
L
4.3. INTERVALOS DE CONFIANZA .
Una vez conocida la magnitud del error de muestreo, queda por responder a la pregunta sobre
qu tan buen estimador resulta la media de la muestra 0, de la media de la poblacin , cuyo
valor nos es desconocido. Anteriormente se vio que en una distribucin de medias muestrales
(0 i) el 95 por ciento de ellas caeran dentro del intervalo:
1.96 EE0
Sin embargo, el problema usual no es el anterior, ya que por lo regular no tomamos muchas
muestras de la misma poblacin. Se pretende que, a travs de una sola muestra, podamos
66
Para lo anterior, dicho en palabras coloquiales, la inferencia cientfica juega a la lotera, pero
en sentido contrario: en la lotera, el jugador desea, o confa, que el nmero comprado salga
premiado con el premio principal, es decir, busca obtener, por medio del azar, el resultado
menos probable; en la inferencia estadstica se desea que la nica media 0 forme parte del
conjunto de medias 0 i que caen dentro del intervalo, por ejemplo, del 95 por ciento ( 1.96
EE0), en otras palabras, se confa en que no se obtendr el primer premio, en que el error de
estimacin no ser mayor que 1.96 EE0, y que por lo tanto, el intervalo definido por:
L 0 1.96 EE0
tenga en realidad una probabilidad del 95 por ciento de contener el valor de . Este intervalo
es llamado intervalo de confianza al nivel del 95 por ciento para la verdadera media de la
poblacin y es una medida de la precisin con que 0 estima el valor de . Ntese que es el
intervalo de confianza el que tiene una probabilidad dada de incluir el valor de y que no es
la que tiene esa probabilidad de caer dentro del intervalo.
Entre ms amplio resulte el intervalo al mismo nivel de confianza (por ejemplo 95 por ciento),
menor ser la precisin con que se est estimando el parmetro de la poblacin y viceversa.
Un intervalo muy amplio ser de menor utilidad prctica que uno estrecho.
El mismo razonamiento se sigue para las variables binomiales, donde el intervalo de confianza
del 95 por ciento para la verdadera proporcin de la poblacin (B) es:
L p 1.96 EEp
Por supuesto, se pueden definir otros intervalos a distintos niveles de confianza:
0 2.58 EE0
p 2.58 EEp
que son los intervalos correspondientes al nivel de confianza del 99 por ciento. Por supuesto,
el intervalo del 99 por ciento ser ms amplio que el del 95 por ciento, con un mismo error
estndar, debido al simple hecho de que se abarca un rea mayor bajo la curva (no a que sea
menos exacto).
Estos dos intervalos son los ms usados en la investigacin, pero ello es arbitrario y se puede
utilizar cualquier otro.
67
Es por medio de estos intervalos que se puede estimar el valor desconocido de un parmetro
de la poblacin ( o B) por medio de una muestra, con una cierta probabilidad de acertar y,
en consecuencia, con una cierta probabilidad de equivocarse (que siempre existir y que en
ocasiones puede hacerse real, por pequea que nos parezca; hay quienes obtienen el primer
premio de la lotera!; vanse los ejemplos 4.1 y 4.2).
68
INFORMACIN
En un estudio realizado en una comunidad rural de Mxico, se tom una muestra de 127
individuos, a quienes se les midi el nivel de colesterol srico. Los resultados arrojaron una
media (0 ) igual a 250.16 mg/100 ml y una desviacin estndar (S) igual a 48.29 mg/100 ml.
Suponiendo que esta muestra fue correctamente tomada y que es representativa de la
poblacin de la cual se obtuvo, cul sera el intervalo de confianza del 95 por ciento para
estimar la verdadera media de la poblacin?
PROCEDIMIENTO
= 48.29/%127
= 48.29/11.269
= 4.29 mg/100 ml
250.16 8.41
INTERPRETACIN
69
INFORMACIN
La infeccin por virus de hepatitis B (VHB) puede tener diferentes consecuencias, como son
la hepatitis aguda, la hepatitis activa crnica, la cirrosis y el carcinoma hepatocelular primario.
En los adultos esta infeccin es responsable de una gran parte de tales enfermedades. En un
estudio realizado en Argentina, fueron examinadas 276 personas con hepatitis crnica, de las
cuales 174 resultaron positivas al VHB; en otro estudio, llevado a cabo en Chile fueron
examinadas 48 personas con carcinoma hepatocelular, de las cuales 34 resultaron positivas
para el VHB.
PROCEDIMIENTO
p=r/n
= 174 / 276
= 0.6304
EEp = %[p(1-p) / n]
= %[0.6304*0.3696 / 276]
71
= 0.0291
p 1.96 EEp
0.6304 0.057
INTERPRETACIN
Esto ser vlido solamente para la poblacin de la cual fue extrada la muestra y en el caso
de que esta realmente haya sido obtenida por mtodos aleatorios.
En la realidad, es difcil decir que se conoce F, por lo que hay que utilizar el valor de la
desviacin estndar de la muestra (s).
En primer lugar, siempre se pone a prueba una afirmacin que se denomina hiptesis nula
(Ho) la cual establece que la media 0 en realidad procede de la poblacin con media , y que
toda diferencia observada se debe al error de muestreo y no a una verdadera diferencia (es
decir, en este caso la hiptesis nula nos dira que la medicin que estamos tomando en los
enfermos tiene la misma media que la de la poblacin sana). En otras palabras, la Ho
establece la nulidad de las diferencias entre las dos medias y esto es algo que requiere ser
probado. A la prueba que se hace para verificar lo anterior se le llama contraste de hiptesis
o prueba de hiptesis.
1.96
incluir al 95 por ciento de las medias 0 i (todas del mismo tamao n; vase el captulo 4),
entonces la probabilidad de que la 0 observada caiga dentro de ese intervalo es igual a 0.95;
si en algn caso no es as, se dice que se ha encontrado una diferencia significativa al nivel de
significancia del 0.05 o 5 por ciento, lo cual se expresa como:
p < 0.05
p > 0.05
lo que indica que la probabilidad de equivocarse al rechazar la Ho es mayor que 0.05 o que
el 5 por ciento. Es decir, que no se ha encontrado evidencia de alguna diferencia significativa
y que la observada entre 0 y se debe slo al error de muestreo.
Debe tenerse presente que una Ho nunca se acepta, pues un resultado negativo nunca es
evidencia de nada, es decir, el hecho de que no se observe una diferencia significativa no
quiere decir que esta no exista.
Si se desean otros niveles de significancia, se pueden construir los intervalos respectivos, como
por ejemplo:
2.58
para el nivel de significancia del 0.01 o 1 por ciento, y los resultados se expresan como:
p < 0.01
o bien como:
p > 0.01
segn sea el caso de que se trate de una diferencia significativa o no, respectivamente.
Sin embargo, este procedimiento puede resultar tedioso si hay que comparar la 0 con varios
niveles de significancia (por ejemplo, si resulta significativa al nivel de 0.05 y se desea ver si
tambin lo es al nivel de 0.01), pues en cada caso se deber construir el intervalo de confianza
respectivo. Una manera ms sencilla de hacer la prueba o contraste consiste en obtener la
puntuacin z para la diferencia de las medias, donde:
necesidad de hacer ninguna otra operacin, se puede ver si z es mayor que 2.58 y si es as,
la diferencia tambin ser significativa al nivel de 0.01 (p < 0.01).
La interpretacin que se puede hacer es igual a lo dicho con respecto a los intervalos de
confianza, cuando z es menor que 1.96 o 2.58 entonces: p > 0.05 o p > 0.01. En el caso de
que z sea mayor que 1.96 pero menor que 2.58, entonces:
lo que quiere decir que se ha encontrado diferencia significativa al nivel del 5 por ciento pero
no al nivel del 1 por ciento. En la actualidad con los medios electrnicos al alcance, es comn
encontrar la probabilidad exacta en expresiones como:
p = 0.038
Es necesario aclarar que los niveles de significancia del 1 por ciento, 5 por ciento o cualquier
otro son arbitrarios y dependern del problema estudiado y de las preferencias del
investigador establecidas de antemano en el protocolo de investigacin.
Por otro lado, debe tenerse en cuenta que "significativo" en estadstica, indica que la diferencia
no es fcilmente explicada por el azar, esto es, por el error de muestreo, y que entonces
debera ser explicada de otras maneras (por ejemplo, a travs de la influencia de alguna
variable que se est estudiando).
L
75
o su equivalente:
las dos frmulas dan los mismos resultados los cuales, de acuerdo a la magnitud de z, se
interpretan de la misma manera que para el caso de las medias (vase el ejemplo 5.2).
76
INFORMACIN
En un estudio en el que se analizaron estos niveles, en 32 pacientes con SIDA, se encontr una
media de 231 mg/dl. Si en la poblacin normal el nivel promedio es de 91 mg/dl, con una
desviacin estndar de 41.23 mg/dl, existe evidencia de que la hipertrigliceridemia puede
considerarse como una manifestacin del SIDA?
PROCEDIMIENTO
EE0 = F / %n
= 41.23 / %32
= 7.2885
4. Obtenga el valor de z:
77
z = (0 - ) / EE0
= (231-91) / 7.2885
= 19.21
INTERPRETACIN
Ya que el valor de z es numricamente mucho mayor que los niveles crticos de 1.96 y de 2.58,
se puede rechazar la hiptesis nula al nivel de significancia del 1 por ciento o inclusive de 0.1
por ciento:
p < 0.001
Esto quiere decir que los niveles de triglicridos en sangre son significativamente ms altos en
los pacientes con SIDA, comparados con la poblacin sana; o en otras palabras, que los
pacientes con SIDA pertenecen a una poblacin cuyos niveles de triglicridos son ms altos
que los de la poblacin sana.
Pero muchas veces interesa saber si esta diferencia, estadsticamente significativa, es tambin
importante en trminos clnicos o biolgicos. Para ello se debe obtener el intervalo de
confianza para la verdadera diferencia entre 0 y , puesto que la diferencia observada est
basada en los resultados obtenidos de una muestra y no puede considerarse como la
verdadera:
L (0 - ) (1.96)(EE0)
Para lo cual se sustituyen los correspondientes valores:
140 14.29
Es decir, el intervalo de confianza para la verdadera diferencia est entre 125.7 y 154.3 mg/dl.
En otras palabras, con un nivel de confianza del 95 por ciento, podemos afirmar que los
niveles de triglicridos en la sangre son ms altos en los pacientes con SIDA, comparados con
las personas sanas, en al menos 125.7 mg/dl y hasta 154.3 mg/dl.
78
INFORMACIN
En un estudio para verificar la teora de que la resistencia a la dieldrina (0.4 por ciento con
exposicin de una hora) es debida a un solo gene dominante en Anopheles farauti,
homocigotos resistentes (RR) fueron cruzados con homocigotos susceptibles (rr) para producir
una poblacin de heterocigotos (F1). Los mosquitos F1 fueron nuevamente cruzados con una
cepa de homocigotos susceptibles. De acuerdo con la teora de la determinacin unignica,
el porcentaje de la progenie de este ltimo entrecruzamiento que podra ser susceptible a la
dieldrina es de 50 por ciento. De 465 mosquitos de esta progenie, 264 (56.77 por ciento)
murieron. Es este porcentaje significativamente diferente al porcentaje que predice el modelo
gentico?
PROCEDIMIENTO
EEp = %[B(1-B) / n]
= %[0.5*0.5 / 465]
= 0.0232
4. Obtenga el valor de z:
z = (p - B) / EEp
79
= (0.5677-0.5) / 0.0232
= 2.919
z = (r - nB) / %[nB(1-B)]
= 264-232.5 / 10.78
= 2.92
INTERPRETACIN
p < 0.05
p < 0.01
Por este motivo se puede afirmar que existe evidencia para rechazar la hiptesis de que la
resistencia a la dieldrina se debe a un nico gene dominante, y que por lo tanto, debe
buscarse alguna otra explicacin al fenmeno.
Al haber encontrado una diferencia significativa entre la proporcin esperada por la teora y
la observada, resulta de inters estimar la verdadera magnitud de esa diferencia. Para tal caso
se puede construir un intervalo de confianza (95 por ciento, 99 por ciento o cualquier otro)
para la verdadera diferencia. El intervalo de confianza del 95 por ciento es:
L (p - B) 1.96 EEp
0.0677 (1.96 * 0.0232)
0.0677 0.0455
lo que quiere decir que la magnitud de la verdadera diferencia entre las proporciones esperada
y observada, con un 95 por ciento de probabilidad de acertar, est entre 0.0222 y 0.1332 o
80
que el porcentaje de mosquitos muertos observado debe ser mayor que el esperado por la
teora entre 2.22 y 13.32 puntos porcentuales.
81
Tal vez una de las tcnicas estadsticas ms comunes utilizadas en la investigacin mdica sea la comparacin
de los resultados de dos muestras, por ejemplo, al comparar el efecto que dos tratamientos distintos pueden tener
sobre sendos grupos de individuos con caractersticas similares. Al hacer esto, se puede determinar si los niveles
medios de algn indicador se modifican de manera ms favorable con uno de los tratamientos o si estos tienen
efectos similares, o bien si es mayor la proporcin de individuos que presentan alguna mejora, o son curados,
con un tratamiento en comparacin con el otro.
En este captulo se muestra el procedimiento que se sigue en casos donde se tienen dos muestras cuyo tamao
es grande, y lo que se desea es contrastar la hiptesis nula de que son iguales entre s.
= F12/n1 + F22/n2
L EE(0 -0 ) =1 2
En el caso de una sola muestra ponemos a prueba la Ho que afirma que la 0 procede en
realidad de una poblacin con media y que toda diferencia observada se debe al error de
muestreo. La respuesta se obtuvo calculando (captulo 5):
En el presente caso, ya que se cuenta con dos muestras, la Ho establece que las medias 0 1
y 0 2 han sido tomadas de poblaciones cuyas medias 1 y 2 son iguales, es decir:
1 = 2, o bien
1 - 2 = 0
82
Para probar (contrastar) la hiptesis nula, de nuevo se calcula z, pero ahora se sustituyen los
valores de 0 por (0 1 - 0 2) y de por (1 - 2), y el error estndar de la media EE0 por el error
estndar de la diferencia de las medias EE(0 1-0 2):
El valor de z que se obtenga se interpreta de la misma manera que en el caso de una sola
media, generalmente a los niveles crticos del 5 por ciento y del 1 por ciento. Debe tenerse
presente que si primero se obtuvo el valor de z con una sola media muestral para estimar el
valor de la verdadera media de la poblacin (captulo 4) y luego se obtuvo para el valor de
z para ver la verdadera diferencia entre 0 y (captulo 5), ahora se calcula z para indagar la
verdadera diferencia entre dos medias de las muestras, 0 1 y 0 2.
B 1 = B 2, o bien
B1 - B 2 = 0
Por ello, de las dos muestras se pretende obtener la mejor estimacin de B que sea posible,
esto es, una proporcin combinada (pc), donde:
Con la cual se puede calcular el error estndar de la diferencia de las proporciones EE(p1-p2),
que originalmente sera:
y ya simplificado:
L EE(p -p ) =
1 2
Con cuyo valor se puede proceder a obtener el valor de z para la diferencia de las
proporciones:
INFORMACIN
Edad a la Mujeres de
Menarquia 31-40 aos 21-30 aos
10 0 3
11 2 11
12 8 28
13 14 23
14 27 12
15 5 1
16 8 0
17 1 0
18 1 0
TOTAL 16 78
PROCEDIMIENTO
= %[1.93/66 + 1.17/78]
= %0.0442
86
= 0.2103
= (13.88-12.42) / 0.2103
= 6.94
INTERPRETACIN
Como z es mayor que el valor crtico de 1.96, y an mucho mayor que 2.58, la diferencia entre
las medias resulta altamente significativa:
p < 0.001
-6
(en realidad, p = 0.1099 * 10 ).
Esto quiere decir que existe evidencia de que la edad promedio a la menarquia ha variado (ha
disminuido, de acuerdo a las medias muestrales) significativamente entre una y otra
generacin.
4. Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre las
medias:
Ya que se encontr una diferencia altamente significativa entre las dos medias de las muestras,
interesa saber cul puede es la magnitud del cambio:
1.46 0.4122
lo que da un intervalo que se encuentra entre 1.05 y 1.87 aos de diferencia en la edad a la
menarqua.
INFORMACIN
En un estudio se vio que de 299 mujeres recanalizadas despus de la esterilizacin por medio
de la ligadura de Pomeroy, 176 lograron tener un embarazo a trmino; en comparacin, de
258 mujeres recanalizadas despus de la esterilizacin con electrocoagulacin, 111 lograron
tener un embarazo a trmino.
Para ver si existe una diferencia significativa entre ambos grupos de mujeres, respecto al
porcentaje que logra tener un embarazo a trmino despus de la recanalizacin:
a) establezca la hiptesis nula.
b) obtenga el porcentaje de mujeres que lograron un embarazo a trmino en uno y
otro casos.
c) realice el contraste de hiptesis para ver si existe una diferencia entre ambos
porcentajes.
d) obtenga el intervalo de confianza para la verdadera diferencia, en caso de que esta
sea significativa.
PROCEDIMIENTO
Una forma de plantear la hiptesis nula podra ser: los resultados de la recanalizacin
quirrgica en mujeres que han sido esterilizadas por la ligadura de Pomeroy y en las que lo
han sido por electrocoagulacin, en realidad son iguales, cualquier diferencia observada se
debe al error de muestreo.
pc = (r1+r2) / (n1+n2)
= (176+111) / (299+258)
= 0.5153
= /[0.5153(1-0.5153)(1/299 + 1/258)
= 0.0425
z = (p1-p2) / EE(p1-p2)
= (0.5886-0.4302)/0.0425
= 3.73
INTERPRETACIN
Como z es numricamente mayor que el valor crtico de 2.58, se puede afirmar que existe una
diferencia significativa entre ambos grupos de pacientes en cuanto al xito de la recanalizacin,
el cual es mayor para las mujeres que siguieron la esterilizacin por medio de la ligadura de
Pomeroy:
p < 0.001
6. Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre las
proporciones:
89
Debido a que se encontr una diferencia significativa, es conveniente obtener este intervalo,
con el objetivo de determinar cul puede ser la magnitud de la verdadera diferencia:
0.1584 0.0833
El contraste de hiptesis para la media de una sola muestra implica el clculo de:
cuyo resultado se compara con los niveles crticos de 1.96 o de 2.58 (o alguno otro que se
desee). Sin embargo, F generalmente permanece desconocida, por lo que se utiliza s como su
estimador.
En este caso, al introducir el valor s basado en una muestra pequea, se obtiene una nueva
estimacin:
Sin embargo, el valor observado de t deber compararse con valores crticos ms estrictos y
ya no con los valores de z (que son 1.96 al nivel de significancia de 0.05 o 2.58 al nivel de
significancia de 0.01) pues estos incluirn una rea menor bajo la curva y, por lo tanto, la
probabilidad de errar, al utilizarlos, ser mayor. Los valores con los que se compare t no son
fijos, y dependern de qu tan buen estimador sea s de F, lo que est en relacin con el
tamao de la muestra, es decir, con los grados de libertad (n-1).
Para poder aplicar esta distribucin se deben cubrir los siguientes supuestos bsicos:
a) Las observaciones son independientes.
b) Las muestras han sido tomadas de poblaciones que se distribuyen normalmente.
c) Las varianzas son iguales. Para esto se recurre a algunas pruebas como la F de
Snedecor para el contraste de las varianzas.
91
En el caso de que de que no se cumplan estos requisitos se deber utilizar las pruebas
conocidas como no paramtricas. Tampoco se utiliza la prueba de t para contrastar
proporciones obtenidas con muestras pequeas.
La prueba de t es muy til en los estudios clnicos pues con frecuencia no es posible tener un
grupo grande de pacientes para realizar las investigaciones, y por lo tanto, el observador se
ve obligado a trabajar con muestras pequeas (esto es particularmente cierto en estudios de
casos y testigos sobre enfermedades de baja frecuencia).
y la Ho que utilizamos ser que la diferencia de las medias de las poblaciones (1-2) de donde
proceden las muestras, es cero:
1 = 2
1 - 2 = 0
De tal manera que:
L
donde n es el nmero de pares de observaciones y
sd es la desviacin estndar de las diferencias entre cada par.
Ntese que en estos estudios a cada caso del primer grupo le corresponde un
caso en particular del segundo grupo, pues estn organizados por pares:
.
xn1, xn2
por lo que se puede obtener la diferencia para cada uno de los pares de
observaciones (di = xi1 - xi2), a partir de las cuales se calcula la media de las
diferencias, Gd, y su desviacin estndar, sd, es decir, cada par es tratado como
si fuera una nica observacin.
Si el valor absoluto (sin tomar en cuenta el signo) de t observada es menor que el de la tabla,
al nivel de significancia elegido, no se puede rechazar la Ho (se dice que no se observ
diferencia significativa); si, por el contrario, es mayor que el de la tabla, se rechaza la Ho, de
manera anloga a como se hara con z.
Cuando llega a encontrarse una diferencia significativa, ser conveniente obtener el intervalo
de confianza para estimar la magnitud de la verdadera diferencia. Esto se hace obteniendo el
intervalo de confianza respectivo:
L (0 -0 ) t
1 2 ",gl EE(0 1-0 2)
1 = 2
1 - 2 = 0
F 21 = F 22
Esto quiere decir que se puede hablar de una sola varianza verdadera. Entonces s21 y s22 son
estimaciones separadas de una misma varianza F 2 resultara mejor, particularmente si se trata
de muestras pequeas, obtener una sola estimacin, la cual se puede llamar varianza
ponderada:
93
o ms comnmente:
Con este valor de la varianza ponderada se puede calcular el error estndar de la diferencia
de las medias:
o ms comnmente:
En caso de que se haya encontrado una diferencia significativa, se puede obtener el intervalo
de confianza para estimar la verdadera diferencia de las medias:
Ejemplo 7.1: Contraste de Hiptesis para Dos Medias de Muestras Pequeas Pareadas.
INFORMACIN
PROCEDIMIENTO
Esto se logra simplemente restando los valores de la segunda columna de los datos a los de
la primera, y obteniendo la desviacin estndar de estas diferencias por los procedimientos
comunes:
EE(0 1-0 2) = sd / /n
= 5.96 / /12
= 5.96 / 3.46
= 1.72
= 1.72
5. Compare el valor de t observada (1.72) con el valor de t11,0.05 en la tabla 3 (es decir, el valor
de t en la distribucin terica con 11 grados de libertad, al nivel de significancia del 5%), el
cual es igual a 2.20.
96
INTERPRETACIN
INFORMACIN
PROCEDIMIENTO
= [8*400 + 12*49] / 18
= 210.44
sp = 14.51 g
= 6.6229
= (111-150) / 6.6229
= -5.889
5. Compare el valor de la t observada (-5.889) con el valor de t18,0.001 en la tabla 3 (es decir,
el valor de t en la distribucin terica con 18 grados de libertad, al nivel de significancia del
0.1%), el cual es igual a 3.922.
INTERPRETACIN
Dado que el valor de t observada es muy grande, se puede concluir que existe evidencia de
que la liberacin media diaria de NET difiere significativamente entre los dos grupos de
mujeres (p < 0.001).
(0 1-0 2)
99
En tales situaciones, es conveniente recurrir a otro tipo de pruebas que no requieren de estos
supuestos. Estas son las que se conocen como pruebas no paramtricas entre las cuales tal vez
la ms utilizada sea la de P (Ji al cuadrado).
Como se puede ver, el sentido general de la prueba es comparar dos frecuencias, comnmen-
te, una observada con una esperada.
El clculo e interpretacin en todos los casos son iguales, en lo nico que difieren es en la
manera de obtener las frecuencias esperadas, as, las frecuencias esperadas en el primer caso,
estn dadas por una distribucin, terica o emprica, que se conoce previamente. En el
segundo caso se podrn comparar las frecuencias de los distintos grupos. Lo ms comn, sin
embargo, es que se recurra al tercer caso, en donde se ignora la distribucin de frecuencias
esperadas y debe recurrirse a un procedimiento, ya establecido, para obtenerlas.
Una caracterstica del anlisis con P consiste en que es posible comparar dos o ms
proporciones (an cuando lo que se utilice sean las frecuencias absolutas, el efecto es el
100
mismo), lo que representa una gran ventaja sobre el anlisis con la aproximacin a la
distribucin normal, en donde slo se pueden comparar dos proporciones.
La Ho en este caso establece que las diferencias que se encuentran entre las frecuencias
observadas y las esperadas se deben al error de muestreo.
La manera de llevar a cabo el anlisis consiste en organizar los datos en una tabla de
contingencia (en el sentido de eventualidad; este tipo de tablas son aquellas cuyos subtotales
de las filas suman exactamente lo mismo que los subtotales de las columnas), en las cuales se
ordenan las observaciones de acuerdo a las categoras de dos variables. Las tablas de
contingencia ms sencillas son aquellas que tienen dos filas y dos columnas:
Variable 1
categora 1 categora 2 Total
categora 1 a b a+b
Variable 2
categora 2 c d c+d
Gran Total =
Total a+c b+d
a+b+c+d
Una vez que se ordenan las observaciones, se debe obtener las frecuencias esperadas. En
general, las frecuencias esperadas para cada casilla se obtienen de la siguiente manera:
E = (tf*tc)/gt
Este procedimiento se repite para cada casilla. El sentido de este procedimiento consiste en
lo siguiente: la relacin (a+b)/gt, por ejemplo, nos seala la probabilidad, en una serie de
observaciones, de pertenecer a la categora 1 de la variable 2, independientemente de los
efectos de la variable 1. La relacin (a+c)/gt es la probabilidad, en la misma serie de
observaciones, de pertenecer a la categora 1 de la variable 1, independientemente de los
efectos de la variable 2. Esto es, se han obtenido las probabilidades de dos sucesos
independientes entre s. Si se multiplican estas dos probabilidades, entonces se obtendr la
probabilidad de que se d el suceso de la casilla "a" si los efectos de las variables 1 y 2 fuesen
101
L
donde O son las frecuencias observadas.
E son las frecuencias esperadas.
Ntese que:
Las diferencias entre las frecuencias observadas y las esperadas en cada casilla se elevan
al cuadrado, (O-E)2, de ah que el nombre de la prueba sea P 2, pues de otra manera, E(O-
E)= 0.
Entre menores sean las diferencias (entre ms parecidas sean las frecuencias observadas
respecto a las esperadas) menor es el valor de P 2, lo que implicara que las variables no
estn asociadas (hiptesis nula), y viceversa.
Los valores crticos con los que se compara el resultado dependern de los grados de libertad:
por lo que para tablas de contingencia de 2*2 los grados de libertad sern siempre 1. Para
obtener los valores correspondientes de la distribucin terica de P, se utiliza la tabla 4 del
Apndice.
El anlisis no debe incluir casillas con frecuencias esperadas menores que 3 (algunos autores
sugieren el valor de 5 como mnimo; este es el criterio que se toma en SPSS).
Como P es una variable continua, al momento de usar esta distribucin para variables
discontinuas o cualitativas es conveniente hacer la correccin por continuidad necesaria
(correccin de Yates):
L
102
INFORMACIN
En un estudio realizado en una comunidad rural, a un grupo de nios que tenan coproparasi-
toscpico (CPS) positivo para Ascaris se le dividi en dos: uno sujeto a tratamiento trimestral
con levamisol durante un ao, y el otro con placebo.
Al final se vi que de 22 nios bajo tratamiento, 15 permanecieron con CPS negativo, y que
de los 32 con placebo 20 resultaron con CPS positivo para Ascaris.
Realice una prueba de P para determinar si los nios con tratamiento evolucionaron mejor
que los nios con placebo.
PROCEDIMIENTO
Distribucin de Nios
con CPS Inicialmente
Positivo de Acuerdo al
Grupo Asignado
Levamisol Placebo Total
Positivo 7 20 27
CPS Final
Negativo 15 12 27
Total 22 32 54
104
Distribucin de Nios
con CPS Inicialmente
Positivo de Acuerdo al
Grupo Asignado
Levamisol Placebo Total
Positivo a b 27
CPS Final
Negativo c d 27
Total 22 32 54
a) Ntese que los subtotales de las filas y de las columnas, y el gran total, son iguales a los
observados.
b) Casilla a: (27 * 22) / 54 = 594 / 54 = 11
c) Casilla b: (27 * 32) / 54 = 864 / 54 = 16 (o simplemente, ya que se conocen los valores
de la casilla "a" y del subtotal de la fila: 27 - 11 = 16)
d) Casilla c: (22 * 27) / 54 = 594 / 54 = 11 ( o simplemente, 22 - 11 = 11)
e) Casilla d: (32 * 27) / 54 = 864 / 54 = 16
5. Obtenga el valor de P:
P = E(O-E)2/E
= 4.9
En la tabla 4 del apndice, busque por ejemplo el valor de P1,0.05, es decir, con un grado de
libertad, pues se trata de una tabla de contingencia de 2*2, al nivel de significancia del 5 por
ciento. Este valor es igual a 3.841.
INTERPRETACIN
9.1. INTRODUCCIN .
Un frecuente inters durante las investigaciones consiste en tratar de determinar si dos sucesos
estn relacionados entre s, de tal manera que al conocer lo que sucede con el primero, se
pueda prever o predecir lo que acontezca con el segundo.
Tal vez el procedimiento ms utilizado para indagar la asociacin entre dos sucesos
(identificados por variables) es el modelo de regresin lineal. Este modelo de anlisis, en su
formulacin ms simple, pretende determinar hasta qu punto los cambios en el valor de una
variable (llamada independiente) influyen en los cambios observados en los valores de la otra
variable (llamada dependiente). En ocasiones se entiende que la primera es la causa de los
cambios en la segunda, reconocida como el efecto, pero esta es una interpretacin errnea
en tanto el anlisis estadstico no se acompae de un anlisis terico que soporte la existencia
de tal relacin.
El modelo de regresin lineal fue desarrollado en el siglo XIX por F. Galton, fundador de la
eugenesia, a partir de sus observaciones sobre un fenmeno hereditario: la relacin de
estaturas entre padres e hijos. Pudo ver que aunque los padres de estatura alta tendan a tener
hijos altos y los de estatura baja hijos bajos, la distribucin de estaturas de una generacin a
otra no cambiaba. Galton explic este fenmeno por la tendencia de la estatura promedio a
desplazarse hacia la media poblacional, es decir, a sufrir una regresin. As, los padres con
estatura promedio alta tenan hijos con estatura promedio menor que ellos, y los padres con
estatura promedio baja tenan hijos con estatura promedio mayor que ellos.
Cuando solamente se toma el valor de una variable independiente para explicar los cambios
en la variable dependiente, se habla de regresin lineal simple, y cuando se utilizan dos o ms
variables independientes, se habla de regresin lineal mltiple. Ambos modelos pertenecen a
un sistema ms amplio de anlisis matemtico que se conoce como curvas de ajuste o de
aproximacin, el cual incluye relaciones no lineales y que no sern tratadas aqu.
107
Con el trmino "lineal" nos estamos refiriendo a aquellas relaciones cuyo ajuste se hace por
medio de una lnea recta, la cual tiene las siguientes caractersticas:
por lo que
De aqu se deduce que b representa la magnitud del cambio en y por cada unidad de
cambio en x. Esto es, los cambios son proporcionales; por ejemplo, si b = 2, entonces y
se modifica el doble de lo que se modifica x. De aqu, para cualquier valor conocido de
x y de y se puede obtener a = y-bx.
Las constantes (dentro de la ecuacin) a y b son llamadas respectivamente "interseccin"
(es el valor que toma y cuando x = 0, es decir, el punto del eje de las ordenadas en
donde la lnea recta cruza) y "pendiente" (la inclinacin de la lnea, entre ms alejado est
su valor de cero, ya sea positivo o negativo, mayor ser su inclinacin). Cuando b=0
tenemos el caso en que para cualquier valor de x, y siempre tendr el mismo valor
(constante).
El primer paso para tratar de ver si existe relacin entre las dos variables es construir una
grfica de correlacin (de dispersin o de nube de puntos) y si los puntos (definidos por los
valores de las coordenadas, es decir, por cada par de valores x, y) caen cercanos a una lnea
recta, se puede asumir que entre las variables existe una relacin lineal (vase la grfica 9.1)
y se puede trazar a ojo una lnea que siga la tendencia general de las coordenadas (mtodo
libre de ajuste). Aqu es cuando la representacin grfica se vuelve indispensable para el
anlisis estadstico. Sin embargo, esta forma de llevar a cabo el anlisis es muy subjetiva, lo
cual significa que diferentes observadores podran obtener diferentes lneas de ajuste, en
particular por el hecho de que en la realidad las coordenadas prcticamente nunca coinciden
todas sobre una sola lnea.
Grfica 9.1.
La regresin lineal es un mtodo objetivo para ajustar esta lnea recta a travs de un conjunto
de puntos. Se le denomina objetivo porque cualquier persona que realice el anlisis siguiendo
el procedimiento establecido, y utilizando los mismos datos, llegar a idnticos resultados.
La lnea recta resultante del anlisis de regresin se conoce como lnea de regresin o de ajuste
ptimo. Esta lnea es una recta respecto de la cual la suma de los cuadrados de las diferencias
entre ella y las coordenadas observadas es mnima, por lo que se le conoce tambin como
recta de los mnimos cuadrados. Es decir, cuando
es mnima con respecto a la lnea de regresin, siendo las d2i los valores de las diferencias al
cuadrado entre las coordenadas observadas y la lnea (vase la grfica 9.2).
109
Grfica 9.2.
De la misma manera que arriba se refiri, se puede ver que cuando x = 0, entonces y = ",
lo que quiere decir que " es el punto en que la lnea cruza el eje de las y, por lo que se le llama
interseccin. Por supuesto, si x = y, entonces " = 0. Por su parte, $ representa la magnitud
del cambio promedio en el valor de y por cada unidad de x. Entre ms alejado de cero est
el valor de $ (positivo o negativo) mayor ser la inclinacin de la lnea de regresin; mientras
que entre ms cercano sea a cero, la lnea de regresin se acercar ms a la horizontal. Por
este motivo, a $ se le conoce como la pendiente. Cuando, para cualquier valor de x, y toma
siempre el mismo valor, se dice que es una relacin constante, y $ ser igual a cero.
En una muestra, los valores de " y de $, que son los valores poblacionales, permanecen por
lo general desconocidos, por lo que se estiman con los valores muestrales a y b. Para calcular
estas estimaciones se tiene que (las siguientes ecuaciones se han obtenido por clculo
diferencial y no de la manera simple relatada arriba para la lnea recta):
110
L
y que
o lo que es lo mismo:
Estas ecuaciones son las que permiten obtener la lnea recta en la que la suma de las
distancias, elevadas al cuadrado, de las coordenadas observadas con respecto a la recta es
mnima. Una vez conocidas estas constantes, es posible trazar la recta de ajuste ptimo:
a) Se escogen dos puntos, cada uno con un valor determinado de x (x1 y x2), para los
cuales se obtienen los valores correspondientes de y (y1 y y2).
b) Se marcan las coordenadas de los puntos anteriores en la grfica y se unen.
G,
c) Se verifica que la lnea trazada cruce la coordenada correspondiente a las medias (x
yG ).
En dcadas anteriores, llevar a cabo un anlisis de regresin lineal poda constituir toda una
hazaa, particularmente si el nmero de observaciones era grande. En la actualidad, con los
recursos electrnicos disponibles, todos estos procedimientos se realizan de manera fcil y
rpida.
Con este procedimiento, adems se puede "predecir" el valor que tomar y para cualquier
valor de x:
yp = a + bx
Sin embargo, hay que tomar en cuenta que se trabaja con una muestra, y ser necesario,
como siempre, estimar la magnitud del error de muestreo, pues tal y predicha, por caer sobre
la lnea, es nicamente el valor medio de todas las y que se podra esperar observar para el
valor de x particular dado en la ecuacin:
Se puede advertir de la ecuacin del error estndar que ste vara para cada valor de x,
hacindose mayor conforme x se aleja de su media y viceversa. Con dicho error de muestreo
se puede calcular un intervalo de confianza (95 por ciento, 99 por ciento o cualquier otro que
se desee) para estimar los valores de y que se podran observar para un determinado valor de
x. Estos intervalos se calculan utilizando la distribucin t de Student:
Como se observa en la grfica anterior, al calcular los intervalos a partir de todos los valores
de x, lo que se obtiene es una franja de confianza.
Por otro lado, siendo la constante b de gran importancia para el modelo obtenido (no en vano
se le conoce tambin como coeficiente de regresin), vale la pena estimar cul puede ser el
valor de este parmetro en la poblacin ($), pues b es un valor obtenido a partir de una
muestra. Interesa, en particular, estimar si $ = 0 (hiptesis nula) pues, de ser as, no
podramos afirmar que existe una asociacin entre las dos variables que estamos analizando.
Para ello, debemos obtener el error estndar de b:
112
que es en todo similar a EEy,x excepto por la unidad dentro de la raz cuadrada. Con ello se
puede obtener tambin una franja de confianza para la verdadera lnea de regresin a
cualquier nivel de confianza (95%, 99%, o algn otro que se desee). De igual manera, se
utiliza la distribucin t de Student:
Grfica 9.4.
Con este mismo error estndar se puede hacer el contraste de hiptesis para determinar si b
es significativamente diferente de cero:
As, cuando el intervalo incluye el valor cero, no se puede rechazar la hiptesis nula de que
$ = 0, es decir, no se ha encontrado asociacin lineal entre las variables, aunque siempre
debe advertirse que puede haber otro tipo de asociacin, la cual se puede sospechar al
observar la grfica de dispersin (de nuevo, la representacin grfica inicial es indispensable
para este anlisis). Si el intervalo no incluye el valor cero, entonces se rechaza la hiptesis nula
y se puede afirmar que la pendiente es significativa (que y cambia significativamente conforme
cambia x).
Dado que para calcular estos errores y sus respectivas franjas de confianza se requiere de
clculos muy tediosos (hay que repetir los clculos para cada valor de x que se desee), se
113
asume que el estudiante tendr acceso a programas de cmputo estadsticos que harn ms
feliz su vida.
9.3. CORRELACIN .
Pero an cuando b sea significativa y de gran magnitud, queda por medir la fuerza de la
asociacin, es decir, el grado de relacin entre las dos variables estudiadas.
Grfica 9.5.
Si, adems de lo anterior, todas las coordenadas llegaran a corresponder a la ecuacin (si
todas cayeran sobre la lnea de regresin) se dice que existe una correlacin perfecta positiva:
Grfica 9.6.
114
Grfica 9.7.
De la misma manera que anteriormente, si todas las coordenadas caen sobre la lnea recta,
se habla de una correlacin perfecta negativa:
Grfica 9.8.
Grfica 9.9.
Grfica 9.10.
Grfica 9.11.
La manera de medir esta fuerza de asociacin es por medio del coeficiente de correlacin r
de Pearson (no confundir con el coeficiente de regresin, b):
El resultado se contrasta con la distribucin t al nivel de significancia deseado y con n-2 grados
de libertad.
Finalmente, es comn recurrir a otro coeficiente que en ocasiones sirve como resumen de todo
el anlisis. Este se llama coeficiente de determinacin y es simplemente r2 el cual se interpreta
como la proporcin o porcentaje en el que la variacin de la variable dependiente puede ser
atribuido a la variacin en la variable independiente. Como proporcin slo toma valores
entre 0 y 1 (entre 0 y 100 por ciento). Es decir, entre ms alto es el valor de r2 podemos
afirmar que la relacin entre una y otra variables es ms estrecha (ejemplo 9.1).
118
INFORMACIN
En un estudio realizado por el Instituto para el Desarrollo de los Recursos (EUA), se midieron
entre otras cosas el porcentaje de nios con diarrea tratados por medio de la terapia de
rehidratacin oral (TRO) y los niveles de mortalidad infantil (tasa por 1000 nacidos vivos: TMI)
en diferentes pases. Esto form parte del Programa de Encuestas Demogrficas y de Salud.
Algunos resultados se presentan enseguida:
Utilizando el anlisis de regresin lineal, determine si existe una relacin entre el porcentaje
de nios con diarrea tratados con TRO y el nivel de la tasa de mortalidad infantil.
Por supuesto, siempre ser mejor hacer este tipo de anlisis en con computadora o, al menos,
con una calculadora cientfica con funciones para regresin lineal. En este ejemplo slo se
ilustran los pasos generales.
119
PROCEDIMIENTO
INTERPRETACIN
120
b) El valor de a = 100.99 indica que la TMI en promedio, tendra este nivel si el porcentaje
de nios con diarrea tratados con TRO fuera igual a 0. El valor de b = -1.49 indica que por
cada punto porcentual de aumento en los nios con diarrea tratados con TRO, la TMI se
reducira en promedio en 1.5 defunciones por cada 1000 nacidos vivos.
c) El valor del coeficiente de correlacin r = -0.7451, es alto y negativo, lo que indica una
fuerte asociacin entre las dos variables. Ello no significa, sin embargo, que necesariamente
exista una relacin de causalidad, esta debera establecerse, en todo caso, a travs de la
explicacin de cmo la TRO puede modificar la TMI y hasta qu punto. Adems, otros muchos
factores entran en juego para determinar el nivel de la mortalidad infantil.