Está en la página 1de 125

MANUAL DE ESTADSTICA BSICA

PARA ESTUDIANTES DE MEDICINA

Alfonso S. Gonzlez Cervera


Departamento de Atencin a la Salud
Universidad Autnoma Metropolitana
Unidad Xochimilco

agcerver@ correo.xoc.uam .m x
CONTENIDO .

Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

Simbologa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii

CAPTULO 1: ORGANIZACIN DE LA INFORMACIN . . . . . . . . . . . . . . . . . . . . . . . . . 1


1.1. Variables y Constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Bases de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Distribuciones de Frecuencias y Construccin de Cuadros . . . . . . . . . . . . . . . . 5
1.4. Construccin de Grficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Ejemplo 1.1: Una Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Ejemplo 1.2: Errores en la Construccin de Grficas . . . . . . . . . . . . . . . . . 19

CAPTULO 2: MEDIDAS DE RESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22


Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3. Media aritmtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4. Media Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Ejemplo 2.1: Obtencin de la Moda (Mo) y de la Mediana (Md) . . . . . . . . 26
Ejemplo 2.2: Obtencin de una Media Aritmtica . . . . . . . . . . . . . . . . . . . 28
Ejemplo 2.3: Media Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Medidas de Dispersin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4. Varianza (F2 , s2 ) y Desviacin Estndar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Ejemplo 2.4: Obtencin e Interpretacin de la Desviacin Estndar (s) . . . 35
Razones y Proporciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.5. Variables Cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Ejemplo 2.5: Obtencin de una Proporcin . . . . . . . . . . . . . . . . . . . . . . . . 39

CAPTULO 3: DISTRIBUCIONES DE PROBABILIDAD . . . . . . . . . . . . . . . . . . . . . . . . . 41


3.1. Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2. Distribucin Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3. Distribucin Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4. Aproximacin de la Distribucin Binomial a la Normal . . . . . . . . . . . . . . . . . 52
Ejemplo 3.1: Determinacin del rea bajo la curva (probabilidad) . . . . . . . 59
Ejemplo 3.2: Aproximacin de la Distribucin Binomial a la Normal . . . . . 63

CAPTULO 4: MUESTREO Y DISTRIBUCIONES DE MUESTRAS . . . . . . . . . . . . . . . . . 64


4.1. Poblacin y Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2. Distribuciones Muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Ejemplo 4.1: Obtencin de un Intervalo de Confianza para la Verdadera Media
en una Poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Ejemplo 4.2: Obtencin de un Intervalo de Confianza para la Verdadera
Proporcin en una Poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

CAPTULO 5: CONTRASTE DE HIPTESIS PARA UNA SOLA MUESTRA . . . . . . . . . . 76


5.1. Una Sola Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.2. Una Sola Proporcin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Ejemplo 5.1: Contraste de Hiptesis para Una Sola Media . . . . . . . . . . . . . 80
Ejemplo 5.2: Contraste de Hiptesis para Una Sola Proporcin . . . . . . . . . 83

CAPTULO 6: CONTRASTE DE HIPTESIS PARA DOS MUESTRAS GRANDES . . . . . 86


6.1. Medias de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2. Proporciones de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Ejemplo 6.1: Contraste de Hiptesis para las Medias de Dos Muestras . . . . 90
Ejemplo 6.2: Contraste de Hiptesis para las Proporciones de Dos Muestras
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

CAPTULO 7: DISTRIBUCIN t DE STUDENT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96


7.1. Muestras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.2. Muestras no Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Ejemplo 7.1: Contraste de Hiptesis para Dos Medias de Muestras Pequeas
Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Ejemplo 7.2: Contraste de Hiptesis para Dos Medias de Muestras No Pareadas
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

CAPTULO 8: PRUEBA DE P 2 (JI AL CUADRADO) . . . . . . . . . . . . . . . . . . . . . . . . . . . 106


Ejemplo 8.1: Obtencin de Ji al Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . 110

CAPTULO 9: REGRESIN LINEAL Y CORRELACIN . . . . . . . . . . . . . . . . . . . . . . . . 113


9.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
9.2. Regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
9.3. Correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Ejemplo 9.1: Regresin Lineal y Correlacin . . . . . . . . . . . . . . . . . . . . . . 126
i

INTRODUCCIN .
El aprendizaje de la estadstica es indispensable para todo estudiante de medicina, pues en
la actualidad es imposible mantenerse actualizado en cualquier campo de la profesin sin la
lectura o la consulta de artculos de investigacin mdica.

Pero tampoco es posible entender lo que estos artculos se preguntan o afirman sin conocer
el lenguaje, al menos el ms sencillo, que se utiliza para el anlisis de los resultados y para la
interpretacin de la informacin. En medicina, este lenguaje est dado bsicamente por la
epidemiologa y por la estadstica.

La epidemiologa proporciona las herramientas necesarias para entender los procedimientos


tiles y necesarios (los mtodos) que permiten llevar a cabo investigaciones en el rea de la
salud, mientras que la estadstica provee las tcnicas que se requieren para analizar los
resultados de esas investigaciones. De estas ltimas se ocupa el presente manual.

La estadstica, sin embargo, no se limita (ni mucho menos) a las tcnicas de anlisis que aqu
se presentan. Estas son slo las ms elementales, son las que constituyen la base para poder
posteriormente avanzar sobre las ms complejas. Pero no se pueden abordar estas ltimas sin
el conocimiento y manejo adecuado de las primeras.

Desafortunadamente, la gran mayora de los libros de estadstica para estudiantes de medicina


(o como se les llama comnmente, de bioestadstica) no son muy estimulantes para el
aprendizaje pues, en su afn por exponer de la manera ms formal los fundamentos de las
tcnicas, se vuelven innecesariamente complejos y confusos para los que desean o necesitan
una introduccin a este campo.

Este manual tiene como objetivo facilitar el aprendizaje, pero debe tomarse en cuenta que,
por el tratamiento preliminar que se da a sus fundamentos, no debe verse como un sustituto
de la lectura y del estudio de algn libro de estadstica.
ii

SIMBOLOGA .

Caracteres latinos:
a: valor de la interseccin de una lnea de regresin en una muestra (captulo 9).
b: valor de la pendiente de una lnea de regresin en una muestra (o coeficiente
de regresin; captulo 9).
EE : error estndar (o de muestreo o aleatorio o experimental; captulos 4 al 7).
gl : grados de libertad (usualmente, pero no siempre, n - 1).
Ho : hiptesis nula (captulos 5 al 9).
n: nmero total de observaciones (casos) en una muestra.
n - 1 : grados de libertad (gl).
p: proporcin en una muestra (captulo 2).
p(x) : probabilidad de que ocurra un suceso x (captulo 3).
p<, p>, p=:probabilidad de equivocarse al rechazar la hiptesis nula (captulos 5 al 8).
r: coeficiente de correlacin de Pearson (captulo 9); tambin se utiliza para
sealar el nmero de observaciones con la caracterstica buscada (captulo 2).
2
r : coeficiente de determinacin (captulo 9).
s: desviacin estndar en una muestra (captulo 2).
2
s : varianza en una muestra (captulo 2).
xG : media aritmtica de una muestra de la variable x (captulo 2).
yG : media aritmtica de una muestra de la variable y.

Caracteres griegos:
": valor de la interseccin de una lnea de regresin en una poblacin (captulo 9).
$ : valor de la pendiente (o coeficiente de regresin) de una lnea de regresin en
una poblacin (captulo 9).
:: media aritmtica de la variable x en la poblacin(captulo 2).
B: proporcin en una poblacin (captulo 2).
E: suma.
F: desviacin estndar en una poblacin (captulo 2).
F2 : varianza en una poblacin (captulo 2).
P2 : Ji al Cuadrado (captulo 8).
1

CAPTULO 1: ORGANIZACIN DE LA INFORMACIN

1.1. VARIABLES Y CONSTANTES .

Cuando se lleva a cabo una investigacin, uno de los aspectos que en primer lugar se toma
en cuenta es el tipo de datos recolectados, pues ello define el diseo de la base de datos, los
anlisis que puedan llevarse a cabo y las formas de presentacin.

En primer lugar, podemos advertir que existen cantidades (o magnitudes) cuyos valores
siempre permanecen fijos, mientras que otras pueden tomar distintos valores. Por ejemplo,
si observamos el dimetro de la pupila, podremos apreciar que se modifica de acuerdo a la
cantidad de luz que llega al ojo; sin embargo, la relacin entre la circunferencia de la pupila
y su dimetro permanece constante, no importando que se trate de un crculo grande o
pequeo (la circunferencia siempre es 3.1416 veces la longitud del dimetro, aproximadamen-
te, o sea el nmero B). De esta manera, el dimetro (una cantidad que se modifica) es una
variable; por otro lado, la relacin entre la circunferencia y el dimetro (que siempre es la
misma) es una constante.

Existen distintos tipos de constantes: las numricas (como la mencionada arriba o el nmero
e, igual a 2.718281828 aproximadamente, base de los logaritmos naturales), las fsicas
(constante de Boltzmann, k; constante de Planck, h) o las qumicas (nmero o constante de
Avogadro, NA; constante de los gases, R; constante de equilibrio, KC). La estadstica, sin
embargo, tiene que ver casi siempre con variables ms que con constantes.

Las variables y las constantes son generalmente representadas por smbolos, con el objeto de
poderlas escribir rpida y concisamente al manipular frmulas o reglas de computacin. Por
lo regular se utilizan letras. Se acostumbra usar las del final del abecedario (por ejemplo, x, y,
z) para las variables, y las del inicio (por ejemplo, a, b, c) para las constantes. Otras letras,
como i, j o k, se usan para procesos de conteo repetitivo; mientras que la letra n se usa para
representar el nmero total de repeticiones u observaciones.

Sin embargo, stas son convenciones que pueden estar sujetas a cambios, dependiendo del
tema o del autor, por lo que es aconsejable que siempre se aclare el significado de cada
smbolo, especialmente cuando se trata de uno nuevo o se le da una denotacin distinta a la
usual. En este manual se procurar utilizar la simbologa ms comn (ver la seccin de
Smbolos Utilizados).

Las variables tambin pueden clasificarse en distintas clases. En los libros de estadstica podrn
encontrarse clasificaciones diferentes, pero todas, excepto por lo que aqu mencionaremos,
pueden reducirse a dos categoras: variables cualitativas y variables cuantitativas. Adems,
2

como se ver en los siguientes temas, es esta distincin la que ms nos interesa para el anlisis
estadstico.

Las variables cualitativas, como su nombre lo expresa, son aqullas que se refieren a una
cualidad, es decir, a una caracterstica o atributo, a la calidad de algo. Estos atributos son
mutuamente excluyentes. El sexo, el lugar de nacimiento, la presencia de un sntoma, son
ejemplo de ello: se pertenece a un sexo o a otro, se puede nacer en un lugar o en otro, se
tiene o no un sntoma, pero no se puede tener ambas condiciones a la vez (son mutuamente
excluyentes). En realidad, en contraste con la definicin de variable que se dio anteriormente,
estas no manifiestan una cantidad o magnitud, su variabilidad est en trminos de la presencia
o ausencia de una caracterstica.

Las variables cuantitativas son aquellas cuya magnitud puede expresarse en una escala
numrica y son de dos tipos: las continuas y las discontinuas. Variables discontinuas son las
que se refieren a magnitudes que nicamente pueden tomar valores enteros en una escala:
el nmero de embarazos, el nmero de leucocitos, el nmero de pacientes tratados. Estas
variables tambin se conocen como "discretas", trmino inapropiado en espaol, producto de
una psima traduccin del ingls. Las variables continuas son las que pueden tomar cualquier
valor entre dos puntos de una escala continua. Como es conocido por cualquier persona que
haya cursado la escuela secundaria, la cantidad de valores que puede haber entre estos dos
puntos es infinita, y la precisin con que se pueda medir la variable depender del instrumento
de medicin. Ejemplos de estas son: la talla (longitud), la edad (tiempo), la presin, los
volmenes.

Las variables pueden expresarse, de acuerdo con su naturaleza, en diferentes escalas:


- escalas cardinales: o nominales, son aquellas en las que los nmeros sirven slo para
identificacin de las distintas categoras. Por ejemplo, es usual que los datos cualitativos
obtenidos sean codificados con nmeros para su ms fcil manejo, particularmente
cuando se crean bases de datos por medios electrnicos. As, los individuos del sexo
masculino pueden ser identificados con el nmero 1, mientras que a los del sexo
femenino se les puede asignar el nmero 2; a los que no tienen ningn sntoma de un
padecimiento estudiado se les puede asignar el nmero 0 (cero), a quienes presentan
un sntoma el nmero 1, a quienes presentan ms sntomas el nmero 2. Como se ve,
esto es arbitrario, y lo mismo dara si se invirtiera el orden o si se asignara cualquier
otro nmero. Estas escalas se utilizan para variables cualitativas.
- escalas ordinales: son aquellas que expresan un orden, como su nombre lo indica,
pero en las que los distintos puntos no tienen relacin con una magnitud determinada.
Por ejemplo, la escala de Mohs, que establece la dureza de los minerales (de acuerdo
con su capacidad para rayar a otros) y que va del 1 al 10, correspondiendo el 1 al
mineral ms suave (talco) y el 10 al ms duro (diamante); en el mbito mdico se usan
para sealar de manera subjetiva ciertos hechos (intensidad del dolor, gravedad del
paciente). Otras escalas muy utilizadas en medicina son: la de la puntuacin APGAR,
la de Glasgow para los estados de coma o la del cncer crvico-uterino. La caractersti-
3

ca de estas escalas es que la magnitud entre un intervalo y el siguiente de la escala no


es por necesidad la misma. Por ejemplo, en la escala de Mohs, la dureza de un mineral
colocado en el punto 4, no necesariamente es el doble de la de otro colocado en el
punto 2, simplemente indica que el primero es ms duro que el segundo. Estas escalas
se utilizan preferentemente para variables cualitativas.
- escalas de intervalos: estas tienen la caracterstica de que la distancia entre dos puntos
de una escala expresa una magnitud dada. Por ejemplo, la distancia que hay entre los
10 y los 15 centgrados, es la misma que hay entre los 30 y los 35.
- escalas de razones: es similar a la de intervalos, pero esta tiene un cero absoluto. Se
puede ver la diferencia entre una y otra si tomamos en cuenta, por ejemplo, que el
contenido de calor de un cuerpo a 40 centgrados no es el doble del de un cuerpo a
20 centgrados, pues el cero en esta escala no es absoluto (no indica ausencia de
calor), mientras que si se mide la temperatura en grados Kelvin, s se puede decir que
un cuerpo a 40 K contiene el doble de calor que otro a 20 K.
Estas dos ltimas escalas se utilizan para las variables cuantitativas.

Grfica 1.1. Escalas ordinales para identificar el nivel de dolor.

Debe sealarse que algunos autores utilizan la clasificacin de las escalas para referirse a las
variables; algunos otros usan denominaciones distintas a las de arriba. Sin embargo, lo ms
comn es emplear la terminologa que aqu presentamos, adems de ser la ms clara.
4

Adicionalmente, es conveniente sealar que las variables cuantitativas pueden ser tratadas
como si fueran cualitativas; esto es, en ocasiones ciertos niveles de una variable pueden ser
asociados a atributos o cualidades. Por ejemplo, si tomamos la presin arterial sistlica
(variable continua) de una persona, podemos clasificarla como hipotensa, normotensa o
hipertensa (variable cualitativa).

Asimismo, podrn encontrarse en distintos libros otras categoras de variables. Una muy
comn es la de variable aleatoria. Esta se refiere a que existen magnitudes variables cuyos
cambios estn dados al azar (por ejemplo, si medimos en repetidas ocasiones y bajo las
mismas condiciones, los niveles de hemoglobina de un individuo sano, estos variarn de una
ocasin a otra sin un orden predeterminado). Por otro lado, hay otras magnitudes que pueden
variar pero con un orden preestablecido; por ejemplo, la posicin de las manecillas de un reloj
es variable, pero sus cambios no estn sujetos al azar.

Existen tambin las variables conocidas como dependientes e independientes (ver captulo 9),
las cuales pertenecen a la categora de las aleatorias.

1.2. Bases de Datos.

Una base de datos consiste en una coleccin organizada de observaciones (casos) y de


variables (informacin sobre cada caso), de tal forma que sirva de partida para su inspeccin
y anlisis.

Una vez que los datos de una investigacin se han recolectado, por ejemplo, en un
cuestionario, en una historia clnica o en algn otro tipo de registro, se concentran ya sea
sobre papel o, ms comnmente en la actualidad, en medios electrnicos. Para esta ltima
opcin existen diferentes formas de hacerlo:
- utilizando programas especiales para la "captura" (segn la terminologa ms comn)
de los datos, como dBase , Paradox , FoxPro o Access entre otros;
- en hojas (o "cuadernos") de clculo como Excel o Quattro Pro ;
- o bien en programas especiales para anlisis estadstico como SPSS .

La ventaja que supone el primer tipo de programas es que, con diferencias entre ellos,
permiten un mayor control o "validacin", de la captura, lo que reduce las oportunidades de
errores; los otros permiten realizar anlisis directos de la informacin, ya sean numricos,
tabulares o grficos. Por lo regular, las bases creadas en los dos primeros tipos de programas
deben ser "exportadas" a los especializados en estadstica para llevar a cabo dichos anlisis o
al menos hacerlos con mayor facilidad. Esto no representa mayor problema, pues prctica-
mente todos los distintos formatos de archivos son intercambiables. Esto ltimo depende de
las versiones de los programas en que hayan sido creados y de otras limitaciones particulares
que no cabe describir aqu.
5

Lo ms importante es saber que el diseo acertado de la base de datos es fundamental para


su utilizacin fcil y gil y que depender en buena parte del programa que se piense utilizar
(vase el ejemplo 1.1).

1.3. Distribuciones de Frecuencias y Construccin de Cuadros.

Una vez que se ha creado la base de datos (como en el ejemplo 1.1) lo que se desea es
examinarla para descubrir las caractersticas que posee en trminos de la magnitud que
alcanzan las distintas variables o de sus tendencias. En dicho ejemplo, esta inspeccin no sera
difcil, pues contiene pocas observaciones (28) y la totalidad de la informacin podra
apreciarse en una sola ojeada. An as, cuando se vaya realizar el anlisis y la discusin de
los resultados, siempre ser conveniente que los datos se presenten en forma resumida para
facilitar la exposicin de los hallazgos y de las ideas que resulten de ellos; esto se vuelve ms
imperioso conforme el nmero de observaciones crece.

Previamente a la popularizacin de los recursos electrnicos con que ahora contamos, la cual
se dio sobre todo durante los ltimos 30 aos del siglo XX, primero con las calculadoras que
incluyeron funciones estadsticas y luego con las computadoras personales, la construccin
idnea de una distribucin de frecuencias era un asunto de la mayor importancia,
especialmente cuando el nmero de observaciones era grande y las variables eran continuas.
Esta importancia radicaba en el hecho de que, no habiendo otros recursos ms sofisticados
para el comn de los investigadores que la regla de clculo o el baco, an los anlisis ms
sencillos podan entraar una gran dificultad y una enorme paciencia. Para contender con
estos obstculos se idearon tcnicas que, trabajando con datos resumidos (el trmino tcnico
es "agregados"), permitan llevar a cabo los anlisis requeridos. Estas tcnicas se basaban en
la construccin de distribuciones de frecuencias con un determinado nmero de intervalos de
valores y una amplitud conveniente de tales intervalos. Actualmente, a no ser que uno se
encuentre en la miseria tecnolgica, estas tcnicas han dejado de tener utilidad, pero an se
pueden encontrar en algunos libros de estadstica, por si acaso. Este manual no los abordar.

En nuestros das la importancia de una distribucin de frecuencias radica ms en la


presentacin de los resultados que en el anlisis mismo, pues este se lleva a cabo con cada
una de las observaciones tomadas individualmente. En otras palabras, la distribucin de
frecuencias se realiza con la finalidad de construir un cuadro que ayude a comunicar los
hallazgos del estudio realizado y que facilite el entendimiento de los argumentos expuestos.
Para cumplir con este objetivo es conveniente considerar las siguientes ideas:

1. TTULO. Todo cuadro debe tener un ttulo que diga el "qu" (de qu se trata, a qu
tema se refiere), el "dnde" (pas, institucin, comunidad en donde se obtuvo la
informacin) y el "cundo" (fecha, ao); los dos ltimos aspectos son menos
importantes cuando se presentan resultados de experimentos realizados en un
laboratorio, pero son esenciales en los trabajos de campo. Es nuestra la obligacin
librar al lector de la necesidad de recurrir al cuerpo del texto para conocer esta
6

informacin pues, por una parte lo que queremos es facilitar la comunicacin y si el


cuadro no lo hace, el lector no tiene ningn compromiso para hacer esfuerzos
adicionales slo para enterarse de lo que queremos decir (a menos que seamos
personas realmente importantes) y, por otra parte, el lector experimentado lo primero
que ve (despus del resumen, si lo hay, y de las conclusiones) son los cuadros. Si no
nos importa lo que el lector pueda pensar o sentir respecto a lo que escribimos, mejor
no escribamos.
2. COLUMNAS y FILAS. Todas deben tener sus propios ttulos. No es conveniente
presentar cuadros demasiado complejos, es decir, con muchas filas y columnas, pues
ello no propicia la comunicacin; pero si juzgamos necesario hacerlo, resulta mejor
colocar el cuadro en un anexo o apndice, para no interrumpir nuestro discurso y a
la vez permitir que quien tenga inters pueda analizar nuestros hallazgos ms a fondo.
3. TOTALES. Aunque no siempre son pertinentes, donde s lo sean debe presentarse los
totales de filas y de columnas.
4. FRECUENCIAS ABSOLUTAS Y RELATIVAS. Siempre debe presentarse las
frecuencias absolutas (el conteo de las observaciones que pertenecen a cada categora
o a cada intervalo de valores) y las relativas (los porcentajes que estos conteos
constituyen sobre el total de las categoras o de los intervalos; este total es, por
supuesto, 100 por ciento). El mostrar las frecuencias relativas facilita al lector apreciar
la contribucin de cada categora o intervalo y le permite, dado el caso, establecer
rpidamente comparaciones con los resultados de otros estudios, sin obligarlo a realizar
operaciones tediosas. Por su parte, las frecuencias absolutas deben aparecer para
ponderar la importancia de las relativas ya que, por ejemplo, no es igual considerar un
valor de 10 por ciento basado en 10 observaciones que uno basado en 500
observaciones. Debe sospecharse siempre de la importancia de los porcentajes de un
cuadro en el que no se muestran las frecuencias absolutas.
5. CLAVES y ABREVIATURAS. Es muy frecuente que en los ttulos de filas y de columnas
no se cuente con el espacio suficiente para colocar todo el texto necesario, por lo que
se debe recurrir a claves o a abreviaturas. Todas ellas, como cualquiera otra aclaracin
que sea necesaria o conveniente, deben ir suficientemente explicadas al pie del cuadro.
6. SIGLAS. En ocasiones los autores piensan en trminos de su crculo profesional ms
estrecho y utilizan siglas que, fuera de ese crculo, no son reconocidas o pueden ser
confundidas; por ejemplo, un lector fuera de Mxico, aunque sea hispanohablante, no
tiene ninguna obligacin de saber qu significa IMSS (Instituto Mexicano del Seguro
Social) por ms que en el pas resulte obvio. El uso de siglas debe seguir la misma regla
que el de claves y abreviaturas.
7. FUENTE. Al pie del cuadro y cuando los datos no son originales de quien escribe el
trabajo en cuestin, debe ponerse la fuente (referencia bibliogrfica, electrnica o en
internet) de donde se obtuvieron, ya sean los datos crudos o el cuadro mismo. Cuando
el cuadro es resultado del estudio y se est presentando en el apartado o captulo de
"resultados" no debe colocarse ninguna "fuente", pues resulta ms que evidente lo que
se est mostrando, de manera que cuando se ponen cosas como "Fuente: el propio
estudio" estamos mostrando que tenemos una idea muy tosca de lo que es la
7

comunicacin de hallazgos. Por otro lado, los cuadros cuyos datos no son producto del
estudio que se est presentando, nunca van en "resultados" sino en los apartados de
antecedentes, discusin o conclusiones.

1.4. Construccin de Grficas.

Cuando deseamos comunicar nuestros resultados y los fundamentos de nuestras conclusiones,


siempre recordamos el refrn que afirma que "una imagen dice ms que mil palabras" lo cual,
como todo en la sabidura popular, muchas veces no es cierto. Debemos tomar en cuenta que
si bien una presentacin grfica de nuestros datos puede ayudar a comunicar sus caractersti-
cas generales, especialmente cuando se ejercen comparaciones, los anlisis definitivos son
numricos y no pueden ser sustituidos por una figura, an cuando sta sea bien hecha y
atractiva, por lo que siempre ser preferible examinar un cuadro. Slo en ocasiones muy
particulares las grficas son insustituibles para guiar el anlisis numrico (vase el captulo 9).

Por otro lado, los recursos electrnicos actuales han conducido al manoseo de las representa-
ciones grficas y, lo que es peor, de las representaciones incorrectas, pues con excesiva
frecuencia se ignoran los principios fundamentales de su construccin idnea, indispensables
para dar una impresin correcta de los hallazgos de un estudio y para orientar los anlisis y
las conclusiones.

Debemos recordar que una grfica est basada en lo que se conoce como sistema rectangular
cartesiano el cual consiste en un marco de referencia con dos lneas rectas, llamadas ejes, una
horizontal y otra vertical que se cruzan, formando un ngulo recto en un punto llamado
origen. Al eje horizontal se le conoce como eje de las abscisas o eje de las x y al vertical como
eje de las ordenadas o eje de las y. Usualmente, al origen se le asocia el valor 0 (cero) y los
valores de x son positivos a la derecha del origen y negativos a la izquierda, mientras que los
valores de y son positivos hacia arriba del origen y negativos hacia abajo (grfica 1.2).
8

Grfica 1.2. Sistema rectangular cartesiano.

Existen excepciones a lo anterior, por ejemplo, el sistema oblicuo cartesiano en el que los ejes
no se cruzan en ngulo recto o aqullas en que los valores de y, positivos o negativos, se
invierten respecto a lo dicho arriba, pero su uso es muy poco frecuente.

Los ejes dividen el espacio en cuatro cuadrantes: el primero, donde los valores de x y de y son
positivos; el segundo, donde los valores de x son negativos y los de y positivos (se numeran
en sentido contrario a las manecillas del reloj); el tercero, en donde x y y tienen valores
negativos; y el cuarto, en donde x es positiva y y es negativa. De esta forma, cualquier par de
valores (x,y), conocidos como coordenadas, puede ser ubicado en el sistema cartesiano. Lo
ms comn, pero no siempre, es que se representen nicamente los valores positivos de
ambos ejes, es decir, el primer cuadrante.

Para una correcta representacin grfica, hay que tomar en cuenta dos principios bsicos: que
los ejes deben ser proporcionales en tamao, siendo el de las x ligeramente mayor que el de
las y en una relacin de 3 a 2, es decir, por cada 3 cm del eje de las x el de las y medir 2 cm
o, en todo caso podrn ser iguales (1 a 1); y que el eje de las y deber iniciar siempre en cero.
Cuando no se cumplen estas dos condiciones, la impresin visual que se ofrezca ser
engaosa (vase el ejemplo 1.2).

Por otro lado, as como hay dos categoras bsicas de variables existen dos clases de grficas
que se les asocian. Para las variables cualitativas, las grficas de barras y, para las cuantitati-
vas, los histogramas o bien su equivalente, los polgonos de frecuencias.
9

Cuando se desea hacer una representacin grfica de una variable cualitativa, hay que tomar
en cuenta que sus categoras no son numricas y que, en consecuencia, su representacin
visual no corresponde a lo dicho respecto al sistema cartesiano ya que no existe ningn eje
de las x y nicamente se habrn de representar las frecuencias (absolutas o relativas) de cada
categora. Estas son las grficas de barras una muestra de las cuales se presenta enseguida con
los datos del ejemplo 1.1:

Ntese que las categoras, representadas en sentido horizontal, no corresponden a ningn eje
cartesiano, pues son cualitativas y que bien se podra invertir el orden en que se presentan sin
que por ello se alterara la representacin visual correcta. Aqu lo nico importante es la altura
que alcanzan las barras, pues ello nos indica su frecuencia. Por lo tanto, no tenemos
preocupaciones por la proporcin de los ejes (no existen).

Debido a lo anterior, estos mismos datos se pueden representar, correctamente, de otras


formas; por ejemplo, en sentido horizontal:

Las barras pueden estar alejadas unas de las otras, como arriba, o juntas:
10

El ancho de las barras no importa, slo su longitud:

Lo que se debe buscar en estos casos es obtener una representacin agradable a la vista, por
ejemplo:
11

Otra forma de representar este tipo de informacin es por medio de las grficas de pastel
(tambin llamadas de sectores) que, aunque comnmente no se consideran apropiadas para
un trabajo cientfico o acadmico, pueden resultar muy demostrativas:

Lo que resulta por completo inaceptable es la utilizacin de las llamadas grficas en tercera
dimensin:
12

Estas grficas han alcanzado gran popularidad por la facilidad con que se pueden construir
y por lo atractivas que parecen ser. En un trabajo cientfico o acadmico, o en cualquier
trabajo medianamente serio, se debe prescindir de ellas siempre pues si uno las examina con
cuidado, se puede dar cuenta de que:
a. no son en tercera dimensin (es slo apariencia);
b. no aportan ms informacin. A esto se le conoce tcnicamente como tinta sin datos;
c. confunden, obstaculizando su lectura.
En resumen, nicamente una persona inexperta y mal entrenada utiliza este tipo de grficas.

Finalmente, otra manera informal de presentar las frecuencias de variables cualitativas es por
medio de pictogramas en los cuales las barras son sustituidas por figuras alusivas al tema que,
apiladas o de distinto tamao, ilustran las frecuencias o valores:

Esta forma de representacin no es propia de un escrito cientfico o acadmico, aunque es


muy popular en folletos o en diarios.

Por su parte, las grficas de las variables cuantitativas deben cumplir con los requisitos del eje
de las y con inicio en 0 y de la proporcionalidad de los ejes (vase el ejemplo 1.2). Los
histogramas son una representacin por medio de rectngulos, que algunas personas
confunden con las barras. Aqu, la diferencia est en que la base del rectngulo corresponde
exactamente a la amplitud de los intervalos que se hayan definido para la variable en cuestin
y su altura a la frecuencia; de esta forma el rea total definida por todos los rectngulos
representa la funcin de la frecuencia y del valor de la variable. Los rectngulos deben estar
contiguos unos a los otros, particularmente en las variables continuas (pero tambin se
acostumbra representar as a las discontinuas):
13

Los mismos datos pueden representarse como un polgono de frecuencias en donde los
puntos medios de los rectngulos (que corresponden a los puntos medios de los intervalos)
se unen con lneas rectas:

Una forma de representacin grfica muy comn, aunque poco utilizada por los novatos, es
la grfica semilogartmica. Esta consiste en transformar el eje de las y, usualmente en escala
aritmtica, a una escala logartmica lo que puede tener ventajas para el anlisis visual de
ciertos fenmenos. Por ejemplo, podemos tener la siguiente serie de datos:

10000
5000
1000
500
100
14

50
10
5
1
0.5

En este cuadro observamos que las magnitudes van desde muy grandes (10,000) hasta muy
pequeas (0.5). Una grfica con escala aritmtica resultara en lo siguiente:

Puede advertirse que los valores menores (a partir de 100) no se observan ya, pareciera que
a partir del valor 5000 el fenmeno cambia pero que sus cambios son muy pequeos y que,
desde el valor 500 estos cambios son imperceptibles; que en realidad se mantiene constante.
Sin embargo el fenmeno, cualquiera que este sea, contina modificndose. Si el eje de las
y es transformado a escala logartmica, la grfica resultante sera la siguiente:

En sta vemos que la representacin de los datos del cuadro anterior es completa, desde los
mayores hasta el menor y que el fenmeno sigue modificndose con la misma tendencia
independientemente de las magnitudes. De hecho, se observa que las modificaciones son tan
importantes, proporcionalmente hablando, cuando los cambios van de 10,000 a 5,000
15

(disminucin de 50 por ciento), como cuando van de 1 a 0.5 (tambin una disminucin del
50 por ciento).

La escala logartmica aparecera como sigue:

Tambin podrn encontrarse grficas logartmicas, en las que los dos ejes se transforman o,
ms raramente, grficas semilogartmicas en el eje de las x.

Actualmente resulta fcil obtener otros muchos tipos de grficas haciendo uso correcto de los
recursos electrnicos. Estos otros tipos no se vern aqu, excepto por las grficas de
correlacin que se tratarn en el captulo 9.

Ahora observe la siguiente grfica que representa los valores de la tasa de mortalidad infantil
para cada estado de la Repblica Mexicana en 1999. En el eje horizontal se encuentran los
nombres abreviados de los estados:
16

Ahora diga:
- si esta es la forma adecuada de presentar la informacin;
- si la informacin es clara;
- y si, en todo caso, debera presentarse de otra manera.
17

Ejemplo 1.1: Una Base de Datos.

La siguiente es una base de datos en papel, con 28 observaciones (adultos sanos):

ID ED AD SEXO ERITRO CITO S H EM O G LO BIN A PLA Q UETA S G LU CO SA CO LESTERO L TO -


TA L
8 31 fem enino 4.85 14.8 297 82 155
10 35 fem enino 5.25 15.2 263 87 196
23 24 fem enino 4.86 15.0 297 84 155
34 30 fem enino 4.79 15.1 245 80 192
41 23 fem enino 4.76 14.8 272 80 136
53 29 fem enino 4.49 14.8 . 89 207
54 22 fem enino 4.41 13.2 263 77 211
60 23 fem enino 4.58 13.8 236 84 138
70 24 fem enino 4.10 13.3 194 81 147
74 22 fem enino 4.24 13.1 235 79 173
78 29 fem enino 4.44 13.5 214 71 134
103 31 fem enino 4.40 14.1 . 103 179
105 23 fem enino 5.15 13.8 . 90 180
106 16 fem enino 4.92 14.2 308 72 70
107 31 fem enino 5.05 15.1 312 68 214
110 34 fem enino 4.99 15.6 227 84 166
113 27 fem enino 4.11 13.0 278 78 227
114 . fem enino 4.65 13.9 278 88 183
115 24 fem enino 4.48 12.0 312 73 120
118 28 fem enino 4.75 14.7 183 91 151
30 24 m asculino 5.66 17.8 308 . .
86 26 m asculino 5.84 16.9 209 88 129
87 21 m asculino 5.33 16.4 332 83 129
130 31 m asculino 5.42 15.9 254 81 112
133 22 m asculino 5.18 15.7 343 83 177
153 22 m asculino 5.49 17.2 175 86 176
155 24 m asculino 4.83 16.2 179 91 128
ID es la clave de identificacin.
ED AD en aos cum plidos.
ER ITR O CITO S por 10 6 .
H EMO G LO BINA en g/dl.
PLA Q UETAS por 10 3 .
G LUCO SA en m g/dl.
CO LESTERO L TO TAL en m g/dl.
18

Ejemplo 1.2: Errores en la Construccin de Grficas.

INFORMACIN

Se desea construir una grfica a partir de los siguientes datos:


Tasas ajustadas de mortalidad masculina (15 aos de edad y ms) por causas directamente
atribuibles al consumo de alcohol (Mxico, 1979 - 1993).

PROCEDIMIENTO

1. : Uso de programas de cmputo.


Lo ms comn es recurrir a programas como Excel , creando una hoja de clculo a partir
de la cual se hace la grfica.

2. : Proporcin de los ejes.


En este programa (como en la gran mayora de ellos), el procedimiento por omisin dara por
resultado la siguiente grfica:
19

En una primera inspeccin de la grfica se podra decir que la proporcin de los ejes est bien
guardada y que, por lo tanto, la impresin visual que nos da esta representacin es correcta.
A partir de lo anterior, se puede hacer una serie de consideraciones y, tal vez, obtener algunas
conclusiones.

Una grfica igual se puede obtener al utilizar un paquete de cmputo especializado en anlisis
estadstico como SPSS .

3. : Eje de las y.
Debe observarse que en la grfica anterior el eje de las y no se inicia en 0 (cero), sino en 40.
Esto implica que si llevsemos el eje hasta cero, la proporcin se perdera por completo,
quedando algo como lo siguiente:

Sera difcil afirmar que una grfica as est bien proporcionada.

4. Valores por omisin.


20

Para una representacin idnea de esta serie de valores, es necesario instruir al programa que
se est utilizando (en este caso, que el eje de las y se inicie en 0) para que nos construya una
grfica correcta, que sera la siguiente:

La impresin visual resultante es muy distinta, y las consideraciones y conclusiones que se


pueden hacer a partir de ella tambin lo sern.
21

CAPTULO 2: MEDIDAS DE RESUMEN

GENERALIDADES .
Aunque los datos se hayan organizado en cuadros y grficas, generalmente se desea tener
alguna medida nica que describa el conjunto, sin tener que recurrir al anlisis de cada una
de sus categoras o de sus intervalos por separado y que adems permita la comparacin
rpida entre distintas colecciones de datos.

Para tales fines estn las llamadas medidas de resumen cuya utilidad es precisamente reducir
la informacin y presentarla en una sola expresin numrica. Estas medidas pueden ser de
dos clases: aquellas que muestran el valor alrededor del cual los datos tienden a agruparse,
conocidas como medidas de tendencia central; y las que muestran el grado en que esos datos
se diferencian unos de otros o en relacin con algn punto de referencia, conocidas como
medidas de dispersin.

Las medidas de resumen corresponden a lo que en la ciencia se conoce como los principios
de unidad y de diversidad. Estos principios establecen que todas las entidades existentes,
aunque distintas entre s, al final forman parte de un mismo proceso, es decir, que si bien la
materia puede expresarse de distintas maneras, su estructura fundamental, en todos los casos,
es la misma. Con las medidas de tendencia central pretendemos acercarnos, inicialmente de
una manera muy simple, a la indagacin del principio de la unidad. Por el otro lado, si bien
todo lo existente es parte de un mismo proceso, cada entidad tiene sus propias y muy
caractersticas particularidades que la hacen diferente a todas las dems. Con las medidas de
dispersin se intenta el estudio de este principio.

De ah que la descripcin de un fenmeno, desde el punto de vista estadstico, nunca est


completa si no se habla de estas dos clases de medidas: tendencia central y dispersin.

MEDIDAS DE TENDENCIA CENTRAL .


2.1. Moda.
No existe un smbolo universalmente aceptado para la moda, si acaso se le puede representar
por Mo. La moda es una medida de tendencia central que se define como el valor o la
caracterstica de una distribucin que ocurre con ms frecuencia, es decir, corresponde a lo
que la palabra significa en el lenguaje comn: lo que predomina o se usa de manera ms
generalizada.

Como puede advertirse, se trata de una medida descriptiva muy simple que no se utiliza en
anlisis estadsticos ms avanzados pues no permite conocer nada acerca de los datos no
contenidos en ella, slo del valor ms frecuente.
22

Cuando en una distribucin dos valores o caractersticas son igualmente los ms frecuentes,
se dice que es una distribucin bimodal. De la misma forma, puede hablarse de distribuciones
multimodales.

La moda se utiliza preferentemente para la descripcin de observaciones correspondientes a


escalas cardinales, por ejemplo, los nmeros de identificacin o clasificacin de personas por
categoras. Puede ser til tambin para variables discontinuas (vase el ejemplo 2.1).

2.2. Mediana.
No existe un smbolo universalmente aceptado pero puede utilizarse Md. La mediana es el
valor que toma la observacin central en una serie ordenada de datos (de mayor a menor o
viceversa) y que deja el mismo nmero de casos a cada lado de ella; es decir, el 50 por ciento
de las observaciones tendr un valor menor que la mediana y el otro 50 por ciento un valor
mayor, por lo que tambin se le conoce como percentil 50.

La mediana se obtiene aplicando la siguiente frmula:

L Mediana = valor que toma la (n +1)sima observacin

NTESE que el valor de la mediana no es el resultante de aplicar la frmula


(n+1), pues esta nos da slo el nmero de la observacin que queda a la mitad
de la distribucin; el valor que tiene esta observacin es el de la mediana (vase
el ejemplo 2.1).

Si n es nmero par, la mediana se define como la media aritmtica (el "promedio") de las dos
observaciones centrales. Se le utiliza para variables cuantitativas, particularmente en caso de
distribuciones asimtricas y para escalas ordinales. Su gran desventaja, igual que la moda, es
que no toma en cuenta la informacin del resto de las observaciones, slo la central o las dos
centrales.

2.3. Media aritmtica (, 0).


La media aritmtica es lo que en el lenguaje comn se conoce como "promedio", aunque de
acuerdo a la terminologa tcnica, tambin la moda y la mediana son promedios, por lo que
es impropio que en un escrito tcnico se utilice la palabra "promedio" para referirse a la media
aritmtica.

Existen otras medias: la armnica y la geomtrica, las cuales son de uso menos frecuente; por
eso, cuando simplemente se habla de la "media" se entiende que se hace referencia a la media
aritmtica.

Los smbolos utilizados para representar a la media aritmtica son la letra (my o mu
minscula del alfabeto griego) para los datos que corresponden a una poblacin completa y
23

con el smbolo 0 (se pronuncia "equis barra") para los datos de una muestra (vase el captulo
4).

En lo sucesivo, todos los smbolos que utilicen letras griegas se referirn a los valores de toda
la poblacin, mientras que las letras latinas correspondern a los de una muestra. La nica
excepcin la constituye la letra E (sigma mayscula), que indica una suma.

La media aritmtica se obtiene de acuerdo a la siguiente frmula:

Donde es la media aritmtica para los valores de la variable x;


Exi es la suma de los valores de las observaciones, desde la primera (i = 1) hasta la
ltima (i = n);
n es el nmero total de observaciones.

La frmula se lee: la suma de los valores de las xi desde la x1 hasta la ltima (n); dividida por
el nmero total de observaciones.

Por supuesto que en el caso de una muestra, habr que sustituir el valor de por el de 0:

La media es la medida de tendencia central ms utilizada porque toma en cuenta la


informacin de todas y cada una de las observaciones (xi). Es la medida de tendencia central
preferida para describir las distribuciones simtricas, y en escalas de intervalos y de razones
(vase el ejemplo 2.2).

2.4. Media Ponderada.


En ocasiones se desea obtener la media de varias medias (0 p, media ponderada, media de
medias o gran media); esto puede suceder cuando no se cuenta con los datos originales, es
decir, desagregados.

Muchas veces se piensa que sumando las medias (E0 i) y dividindolas entre el nmero total
de ellas (n0 ), bastara para obtener la media ponderada (0 p). Sin embargo, este procedimiento
24

puede seguirse nicamente cuando el nmero de observaciones (ni) en que est basada cada
una de las medias parciales es igual. Si este nmero ni es distinto para las medias parciales,
entonces se necesita ponderar:

E0 ini
L0 P =
______
En

donde 0 P es la media ponderada.


E0 ini es la suma de los productos de cada media por su correspondiente nmero de
observaciones.
En es la suma de las observaciones de todos los grupos.

As, una media de elevada magnitud, pero obtenida con pocas observaciones, ver disminuido
su valor relativo. De igual manera, una media pequea obtenida de un gran nmero de datos,
incrementar su valor relativo (vase el ejemplo 2.3).
25

Ejemplo 2.1: Obtencin de la Moda (Mo) y de la Mediana (Md).

INFORMACIN

En un estudio realizado en una clnica prenatal, se obtuvieron los antecedentes sobre la edad
y la paridad de 54 mujeres embarazadas. Los resultados son los siguientes:

Nmero de Nmero de Mujeres por ciento


Partos
0 29 53.7
1 17 31.5
2 3 5.6
3 2 3.7
4 2 3.7
5 1 1.8
Total 54 100

Obtenga la moda y la mediana de esta distribucin.

PROCEDIMIENTO

1. Obtenga la Moda:
como la mayor cantidad de mujeres tiene una paridad igual a cero (29 mujeres, o 53.7 por
ciento del total), entonces

Mo = 0 partos

porque cero es el valor que se presenta con mayor frecuencia.

2. Obtenga la Mediana:
se dijo que la mediana es el valor que toma la observacin que deja la mitad de los casos por
encima de ella y la mitad por debajo, y que para saber cul es esa observacin se utiliza la
frmula:

(n + 1)sima
26

donde n es el total de observaciones, en este caso

n = 54

que es par, por lo cual se encontrarn dos observaciones centrales, la nmero 27 y la nmero
28 (al aplicar la frmula tendramos 27.5), en estos casos se debe tomar el valor "promedio"
de las dos observaciones centrales. Como en el ejemplo ambas observaciones tienen valor
igual a cero partos, entonces:

Md = 0 partos
27

Ejemplo 2.2: Obtencin de una Media Aritmtica (0).

INFORMACIN

En un estudio acerca de la absorcin de hierro, se midieron los niveles de hemoglobina


(mg/100 ml) en 19 voluntarios; los resultados son los siguientes:

CASO Hb (mg/100 ml) CASO Hb (mg/100 ml)


1 14.4 11 13.1
2 17.4 12 13.4
3 15.5 13 13.8
4 16.3 14 12.7
5 13.9 15 15.4
6 13.9 16 14.7
7 14.5 17 13.9
8 14.7 18 14.2
9 15.0 19 16.5
10 15.7

Obtenga el valor de 0 para estos datos.

PROCEDIMIENTO

1. Obtenga los Datos Bsicos:


como la frmula para calcular la media aritmtica es

0 = Exi / n

lo que se requiere es el nmero total de observaciones y la suma de todos los valores


observados de hemoglobina:

n = 19 voluntarios
Ex= 279 mg/100ml

2. Obtenga el Valor de la Media:


simplemente se sustituyen los valores de la frmula referida:

0 = Exi / n

= 279/19
28

= 14.68 mg de Hb /100 ml por persona


29

Ejemplo 2.3: Media Ponderada.

INFORMACIN

En este ejemplo se muestra cmo la ponderacin de una media de medias, obtenida a partir
de diferentes medias parciales arroja resultados totalmente distintos a los que se obtienen
cuando no se sigue el procedimiento correcto. El autor del artculo no ponder las medias y
finalmente lleg a conclusiones errneas. El cuadro se reproduce parcialmente:

Estudio de ndices de caries en piezas temporales


antes de la vacunacin y 10 meses despus
(Datos para el grupo vacunado)

Edad en Nmero de Noviembre de 1969 Septiembre de 1970


Aos Cum- Nios
plidos ceoD ceoS ceoD ceoS

3 7 0 0 0 0
4 55 3.5 6.1 4.56 7.87
5 74 4.71 5.99 5.34 7.19
6 37 4 6.9 4.32 7.85
Total 173 3.05 4.74 3.55 5.72
Media 3.98 5.98 4.66 7.26
Ponderada

ceo: cariadas, extradas, obturadas.


D: pieza dentaria.
S: superficie dentaria.

PROCEDIMIENTO

1. El autor cometi un error:


simplemente sum las medias parciales correspondientes a cada grupo de edad, por ejemplo
(vase la columna de noviembre 1969, promedio de ceoD):

0 + 3.5 + 4.71 + 4 = 12.21


30

y luego dividi entre 4, que es el nmero de las medias parciales, sin tomar en consideracin
que cada una de estas estaba basada en un distinto nmero de observaciones:

12.21 / 4 = 3.05

obteniendo una media de medias incorrecta. Lo mismo puede observarse en las otras
columnas.

2. El procedimiento correcto debi haber sido:


primero multiplicar cada media parcial por su frecuencia (por el nmero de nios estudiados
en cada grupo de edad) y luego dividir entre el total de nios, por ejemplo:
[(7*0) + (55*3.5) + (74*4.71) + (37*4)] / 173 = 3.98

Obsrvese cmo los resultados correctos (medias ponderadas) difieren sustancialmente de los
que el autor obtuvo.
31

MEDIDAS DE DISPERSIN .
2.3. RANGO .
Es una medida de dispersin que consiste en obtener la diferencia entre los valores de las dos
observaciones extremas de una distribucin, es decir la de mayor valor con respecto a la de
menor valor:

L Rango = x mx - xmn

y es una medida poco utilizada, porque no toma en cuenta la variabilidad que puede haber
en las observaciones dentro de los dos extremos, es decir, se pierde informacin; adems, es
comn que estos valores extremos sean los menos estables, esto es, que se modifiquen
fcilmente, pues el rango tiende a aumentar conforme aumenta el nmero de observaciones.

2.4. VARIANZA (F 2, s2) Y DESVIACIN ESTNDAR (F, s).


La varianza es una medida de dispersin que toma en cuenta los valores de todas y cada una
de las observaciones (xi). Por este motivo es la medida de dispersin de ms amplio uso en
la estadstica. Una varianza grande significa simplemente una variabilidad mayor entre los
valores de las observaciones, se puede decir entonces que se trata de un conjunto de valores
heterogneos; por el contrario, cuando una varianza es pequea, se puede decir que los
valores tienden a ser homogneos, cercanos entre s.

La varianza se obtiene de acuerdo a la siguiente frmula:

Ya que generalmente se trabaja con muestras, la forma ms comn de expresarla es:

donde s es la varianza.
E(x-0)2 es la suma de todas las diferencias entre cada observacin y la media; cada
diferencia se eleva al cuadrado y luego se hace la suma.
n-1 el nmero total de las observaciones, menos una (lo que se conoce en estadstica
como grados de libertad).
32

El que cada diferencia de las observaciones con respecto a la media se eleve al cuadrado,
responde al hecho de que habr observaciones mayores que la media (la diferencia ser de
signo positivo) y habr otras menores que ella (la diferencia ser de signo negativo); si se hace
la suma de ellas, E(x-0), sta ser siempre igual a cero. Por lo tanto, al elevarlas al cuadrado,
se cancelan los signos negativos y puede hacerse la suma.

Los grados de libertad (n-1) se utilizan particularmente para el caso de muestras pequeas
(donde el total de las observaciones, n, es menor que 30), pero como pueden ser utilizados
tambin en muestras grandes (n > 30) sin afectar mayormente el resultado, casi siempre es
esta expresin la que se usa.

Si la principal ventaja de la varianza es que toma en cuenta la informacin provista por todas
y cada una de las observaciones y que claramente puede entenderse como un "promedio" (la
media aritmtica) de las desviaciones respecto a la media, su desventaja es que las unidades
en que se expresa son las unidades originales elevadas al cuadrado (por ejemplo kg), lo que
dificulta su interpretacin en trminos del problema real estudiado.

Esta cuestin puede resolverse sencillamente obteniendo la raz cuadrada de la varianza:

Esto es la desviacin estndar, la cual nos permite interpretar fcilmente la magnitud de la


variabilidad en trminos de las unidades originales (por ejemplo kg). La desviacin estndar
se puede interpretar de la siguiente manera:
a) se trata en realidad de un promedio de las desviaciones de las observaciones con
respecto a su media.
b) su magnitud est en trminos de las unidades en que se mide la variable (kg, cm, m
o lo que sea).
c) el intervalo definido por:
0 1s incluye al 68% de las observaciones,
0 2s incluye al 95% de las observaciones,
0 3s incluye al 99% de las observaciones.

Estos valores corresponden a la "distribucin normal" (ver el captulo 3), son aproximados, se
observan con mayor exactitud en muestras grandes y se discutirn en prximos temas.

Existe una frmula equivalente para obtener la varianza o la desviacin estndar, la cual
puede utilizarse en caso de no contar con ningn instrumento electrnico (al menos con una
33

calculadora con funciones estadsticas), adems de otra para datos agrupados. No se


presentan aqu, pues cada da pierden ms su utilidad.
34

Ejemplo 2.4: Obtencin e Interpretacin de la Desviacin Estndar (s).

INFORMACIN

Se utilizarn los mismos datos del ejemplo 2.2:

CASO Hb (mg/100 ml) CASO Hb (mg/100 ml)


1 14.4 11 13.1
2 17.4 12 13.4
3 15.5 13 13.8
4 16.3 14 12.7
5 13.9 15 15.4
6 13.9 16 14.7
7 14.5 17 13.9
8 14.7 18 14.2
9 15.0 19 16.5
10 15.7

PROCEDIMIENTO

1. Identifique y obtenga los datos necesarios:


n = 19 (total de individuos observados).
0 = 14.68 mg/100 ml (del ejemplo 2.2)
E(x - 0)i2 =23.56

2. Obtenga la desviacin estndar:

s =/[E(x - 0)i2 / (n-1)]

= /[23.56 / 18]

= /1.31

= 1.14 mg de Hb /100 ml

3. Obtenga el intervalo:
si el intervalo medido por 0 1s incluye al 68% de las observaciones, entonces se tendra
que:

14.68 1.14
35

define un intervalo que est entre 13.54 mg/100 ml (como lmite inferior, que resulta de restar
una desviacin estndar a la media) y 15.82 mg/100 ml (lmite superior, que resulta de sumar
una desviacin estndar a la media). Con esto, se puede esperar que trece observaciones
(68%), de un total de diecinueve, caigan dentro del intervalo y siete fuera de l. Al revisar los
datos se puede verificar que el resultado es el predicho.
36

RAZONES Y PROPORCIONES .
2.5. VARIABLES CUALITATIVAS.
Las medidas descritas anteriormente son aplicables slo a variables cuantitativas. Cuando se
trata de las cualitativas, lo que interesa es conocer la frecuencia con que se presenta cierta
caracterstica en relacin con el total de observaciones (n), esto es la proporcin (B, p):

Lp=r/n
En donde n es el nmero total de observaciones y
r es el nmero de observaciones con la caracterstica de inters.

Ntese que si se multiplica p por 100, lo que se obtiene es simplemente un porcentaje.

Para el caso de estas variables, el valor de la varianza se obtiene por:

y el de la desviacin estndar por:

Por supuesto que las frmulas correspondientes para p son:

y L
37

Puede verse que si r es el nmero de observaciones con la caracterstica buscada y n es el


total de observaciones, entonces r no puede ser mayor que n, por lo que p nunca podr ser
mayor que 1 ni menor que 0, es decir, no puede haber ms del 100 por ciento de observacio-
nes ni menos que el 0 por ciento con la caracterstica buscada. Por esto mismo, aunque todas
las proporciones pueden representarse como porcentajes, no todos los porcentajes son
proporciones.

Existe una proporcin complementaria de p, la cual se denomina q, y que representa la


proporcin de observaciones que no tienen la caracterstica buscada y entonces p + q = 1 (la
proporcin de las observaciones que tienen la caracterstica buscada, ms la proporcin de
las que no la tienen es igual al 100 por ciento; ejemplo 2.5).
38

Ejemplo 2.5: Obtencin de una Proporcin.

INFORMACIN

Los datos corresponden al ejemplo 2.1.

PROCEDIMIENTO

Si se desea obtener, por ejemplo, la proporcin de mujeres con paridad igual a 1, entonces:
1. Identifique los datos necesarios:
n = 54 mujeres (el total estudiado).
r = 17 mujeres con paridad igual a 1.

2. Obtenga p y q:
Proporcin de mujeres con paridad igual a 1:

p = r/n

= 17/54

= 0.3148 31.48%

Proporcin de mujeres con paridad distinta a 1:

q=1-p

= 1 - 0.3148

= 0.6852 68.52%

Ntese que

p+q=1

esto es

0.3148 + 0.6852 = 1 100%


39

CAPTULO 3: DISTRIBUCIONES DE PROBABILIDAD


(BINOMIAL Y NORMAL)

3.1. CONCEPTO DE PROBABILIDAD .


"El estudio de la teora de la probabilidad puede convertirse en una de las experiencias ms
desesperantes... Hay muchas razones para ello, sobre todo si se intenta establecer una base
filosfica y matemtica para los enunciados de la probabilidad...".1 Este problema es el que,
con mucha frecuencia aleja, particularmente a quienes no buscan ser especialistas en el
campo, del estudio de la estadstica.

En nuestro caso, la veremos de manera intuitiva (como se dice en la jerga matemtica, para
distinguirlo del anlisis formal) y muy elemental, pero que proporcione los elementos
indispensables para entender las bases estadsticas.

Una definicin sencilla de probabilidad puede ser: la proporcin de veces que un suceso (o
un resultado) ocurre en una larga serie de observaciones.

El primer elemento de esta definicin plantea a la probabilidad como una proporcin (p) que,
como tal, no puede tomar valores menores que 0 ni mayores que 1 (vase el captulo 2; a esto
se le conoce como el Axioma 1 de Kolmogorov). Siendo la probabilidad de que un resultado
no ocurra (q):

q = (1 - p)

La suma de todos los resultados posibles es la probabilidad total, igual a 1 (o 100%; Axioma
2 de Kolmogorov):

p+q=1

Si descomponemos la probabilidad total (1) en las probabilidades de cada resultado posible


(y si estos son mutuamente excluyentes), estamos hablando de una distribucin de
probabilidades (por ejemplo, la probabilidad de que en un grupo de individuos encontremos
algunos con presin sistlica mayor que 140 mmHg, ms la probabilidad de que encontremos
individuos con presin sistlica entre 90 mmHg y 140 mmHg, ms la probabilidad de
encontrar individuos con presin menor que 90 mmHg es igual a 1; Axioma 3 de Kolmogo-
rov).

Finalmente, como el concepto de probabilidad se refiere a una larga serie de observaciones,


no puede definirse para un caso particular, aunque este sea un error en el que se incurre

1
Duncan RC et al. (1980). Bioestadstica. Ed. Interamericana. Mxico.
40

comnmente, tanto en la vida diaria como en asuntos especializados (por ejemplo, en el


consejo gentico o en el pronstico de una enfermedad para un paciente). Tambin se
confunde con el concepto de riesgo; pero si recordamos que este ltimo puede atribuirse a un
individuo, al igual que a una pluralidad de individuos, entonces se puede hacer la distincin.
Por ejemplo, podemos decir que una mujer de 45 aos de edad que se embaraza tiene, ella
como individuo, un mayor riesgo de que su hijo resulte con sndrome de Down que una mujer
de 25 aos de edad que se embaraza; pero no podemos decir que tiene una probabilidad
dada, ella como individuo, de tener un hijo con el sndrome, pues esta slo se aplica a un
conjunto de mujeres con las mismas caractersticas.

Debe considerarse que la frecuencia con que se presente un resultado tiende a variar, tanto
con cada serie de observaciones (de una serie a otra), como dentro de una misma serie
conforme aumenta el nmero de las observaciones. Pero al incrementase el nmero de series
(de pruebas o de experimentos) la probabilidad tiende a estabilizarse.

El clculo de la probabilidad, basado en esta idea de la observacin de frecuencias, no


siempre es posible o deseable dado que requiere de pruebas repetidas de un mismo
fenmeno. Por ello, se desarrollaron distintos modelos matemticos para estimar la
probabilidad.

Cuando la probabilidad no puede ser derivada de modelos matemticos, se recurre a las


facilidades que brindan los actuales recursos electrnicos, llevando a cabo experimentos
simulados, los cuales pueden repetirse en mltiples ocasiones. Estas simulaciones producen
resultados aleatorios, por lo que se les conoce como "simulaciones Monte Carlo", nombre
tomado del famoso casino en Mnaco. Esta simulacin, en su forma ms simple est
ejemplificada por el uso de los nmeros aleatorios, como se ver en el captulo 4.

Dentro de las probabilidades, tenemos dos tipos: las condicionales y las independientes. Su
distincin es importante, ya que las reglas para su clculo y su importancia para el anlisis
estadstico son distintas en cada caso.

La probabilidad condicional es aquella en la que se define la probabilidad de que ocurra un


resultado B dado que un resultado A ya ha ocurrido. Por ejemplo, si en una muestra de 27
pacientes, de los cuales 7 son hombres (ejemplo 1.1), la probabilidad de que el primero
escogido sea hombre es de 7/27 o 0.26, pero la probabilidad de que el segundo tambin sea
hombre es de 6/26 o 0.23 siendo la pregunta: cul es la probabilidad de que en esta muestra
el segundo seleccionado sea hombre, dado que el primero fue hombre?

Por su parte, en la probabilidad independiente, la distribucin de probabilidades de una


variable es la misma para todos los valores de otra variable. Por ejemplo, la probabilidad de
padecer psoriasis es independiente del sexo de los pacientes. Este es el tipo de probabilidad
con el que se trabajar en este manual.
41

3.2. DISTRIBUCIN BINOMIAL .


Si en una poblacin de familias, cada una de ellas con dos hijos, estudiramos la probabilidad
de que esos hijos fueran de uno u otro sexo, podramos encontrar los siguientes casos
posibles:

1er Hijo 2 Hijo


m m
m f
f m
f f
m: masculino
f: femenino

donde la probabilidad de que un hijo cualquiera sea del sexo masculino es p(m) = 0.5
(aunque esto no es totalmente cierto, pues se sabe que nacen ms hombres que mujeres, en
una razn aproximada de 103 a 105 hombres por cada 100 mujeres y que mueren ms
hombres que mujeres, pero se tomar as con fines de ilustracin del tema), y en consecuen-
cia, la probabilidad de que sea del sexo femenino es p(f) = 0.5. De esa distribucin se puede
construir una distribucin de probabilidades en la que:

- la probabilidad de que los dos hijos sean varones es de (1 de los 4 posibles resultados),
o sea 0.25;
- de que ambas sean mujeres es tambin de (o 0.25); y
- de que sean de distinto sexo, sin importar el orden, es de (o 0.5).

Lo que hace un total de 1 (o 100 por ciento, la probabilidad total):

1er Hijo 2 Hijo Probabilidad


m m 0.25
m f
0.5
f m
f f 0.25
Total 1 1 1

Ntese que dentro de una familia en particular, el sexo de los hijos no necesariamente es
independiente, es decir, existen familias en las que predominan los hijos hombres y otras en
42

las que predominan las hijas mujeres. Pero en la poblacin de familias (en una larga serie de
observaciones) se ver una tendencia al equilibrio.

La probabilidad de que ambos sean varones, p(m,m), resulta de multiplicar la probabilidad


de cada uno:

p(m,m) = p(m) * p(m) = 0.5 * 0.5 = 0.25

y lo mismo cabe para los otros casos, por lo que la distribucin de probabilidad sera:

p(m)p(m) + p(m)p(f) + p(f)p(m) + p(f)p(f)

es decir:

p(m) + 2p(m)p(f) + p(f) = 1

y si representamos a p(m) como p y a p(f) como q entonces:

p + 2pq + q = 1

lo que es igual a:

(p + q)2 = 1

Si se tratase de familias cada una con tres hijos, tendramos la siguiente distribucin:

1er Hijo 2 Hijo 3er Hijo Probabilidad


m m m 37468 37468 0.125
m m f 37468
m f m 37468 37470 0.375
f m m 37468
m f f 37468
f m f 37468 37470 0.375
f f m 37468
f f f 37468 37468 0.125
43

Total 1 1 1

donde tendramos:

p(m)3 + 3p(m)p(f) + 3p(m)p(f) + p(f)3 = 1

es decir:

p3 + 3pq + 3pq + q3 = 1

lo que es igual a:

(p + q)3 = 1

De esta manera, podramos seguir definiendo las probabilidades de ocurrencia para cualquier
fenmeno (variables cualitativas y variables discontinuas) de cualquier magnitud.

Se debe notar que cualquier expresin del binomio (p + q) es siempre igual a 1, esto es:

( P + Q) = 1
N

lo que representa la probabilidad total.

Cuando el valor de n crece, esta forma de clculo resulta, por supuesto, inapropiada puesto
que el nmero de resultados posibles es cada vez ms grande. En tales circunstancias se utiliza
el siguiente modelo:

L
Donde p(r) es la probabilidad de que se presenten r resultados con la caracterstica de inters.
n! es el factorial de n.
B es la probabilidad previamente definida.

As, por ejemplo, la probabilidad de que en familias de 3 hijos (n = 3), encontremos familias
en que 2 de ellos sean del sexo masculino (r = 2), sin importar el orden en que se presentan,
siendo que la probabilidad de que un hijo cualquiera sea del sexo masculino es de 0.5 (B =
0.5), es:

n! = 3! = 3*2*1 = 6
44

r! = 2! = 2*1 = 2

(n-r)! = (3-2)! = 1! = 1
6
p(m,m,f) = _____ 52 * 0.53-2
2 * 1 0.
p(m,m,f) = 3 * 0.25 * 0.5 = 0.375

el mismo resultado que observamos en el cuadro arriba.

Esta distribucin de probabilidades, propuesta alrededor del siglo XVII, originalmente fue
ideada para dar cuenta de sucesos como eran las oportunidades de tener xito en los juegos
de azar; de aqu viene la tan arraigada costumbre de que en muchos libros de estadstica se
le ilustre con ejemplos de sa clase (juegos de dados, de baraja, etc.). En realidad, sus
fundamentos matemticos son mucho ms complejos que lo presentado aqu, pero
consideramos que con esto se puede tener una idea suficiente para los propsitos de este
manual.

3.3. DISTRIBUCIN NORMAL .


La distribucin normal (originalmente desarrollada por Abraham de Moivre (1667 - 1754) y
publicada por l mismo en 1733) es una distribucin de probabilidades que se desarroll con
propsitos menos triviales que la binomial. En realidad, es un modelo matemtico de algunas
distribuciones encontradas en la observacin de distintos fenmenos; es entonces un modelo
inductivo. Como todo modelo, constituye una representacin idealizada de la realidad, por
lo que en la prctica no encontraremos nunca un grupo de observaciones que lo sigan
exactamente, pero si lo observado es de alguna manera parecido a lo terico, entonces se
justifica su utilizacin (vase la grfica 3.1).

Grfica 3.1.

Como caractersticas generales de la distribucin normal, podemos sealar las siguientes:


a) Es una distribucin de probabilidades de una variable continua, que generalmente se
representa por la letra x. En la escala de medicin de este tipo de variables, resulta intil
sealar la probabilidad para un punto preciso de la escala (por ejemplo, la probabilidad de
45

encontrar individuos con una talla de exactamente 172 cm en una poblacin dada, es
prcticamente nula, ya que el nmero de valores posibles entre dos puntos de una escala
continua es infinito), ms bien se habla de la probabilidad referida a un intervalo de esa
escala (por ejemplo, la probabilidad de encontrar individuos con una talla entre 170 y 174
cm).
b) La curva de la distribucin normal tiene forma de campana, con altura mxima en el
valor correspondiente a (vase la grfica 3.2).
c) La curva de la distribucin normal es simtrica alrededor de y por lo tanto, la media
aritmtica la divide en dos partes iguales. Por esa misma razn, en la curva normal la
media, la mediana y la moda tienen el mismo valor (vase la grfica 3.2).
d) Siendo una distribucin de probabilidades, el rea total bajo la curva representa a la
probabilidad total (la cual es igual a 1), por lo que la media, al dividir la distribucin en dos
partes iguales, deja dos reas con valor de 0.5 a cada lado de ella. Sin embargo la curva
es asinttica, por lo cual nunca se puede determinar la probabilidad absoluta (vase la
grfica 3.2).

Grfica 3.2.

e) La probabilidad (rea bajo la curva) entre los lmites del intervalo definido por:
1F contiene al 0.68 (68 por ciento) del rea bajo la curva;
1.96F contiene al 0.95 (95 por ciento) del rea bajo la curva; y
2.58F contiene al 0.99 (99 por ciento) de rea bajo la curva (vase
la grfica 3.3).
46

Grfica 3.3.

Estos valores han sido definidos a travs de clculo integral. Debe recordarse que en el
captulo anterior se dieron unos valores aproximados, que pueden ser utilizados en
estimaciones rpidas, sin embargo, los que ahora mostramos son los que se usan para la
presentacin de resultados y su anlisis.

f) La curva de distribucin normal est determinada por dos valores: y F (vase la grfica
3.4). La media define el lugar que ocupa una distribucin en la escala, es decir, al
modificarse la media se modifica la posicin de la distribucin en la escala, por ello tambin
se le conoce como medida de posicin; mientras que la desviacin estndar determina el
grado de apuntamiento, llamado curtosis, que tenga una distribucin.

Grfica 3.4.
47

Aqu se puede ver que al variar la F, el grado de apuntamiento o curtosis se modifica: si la


F es pequea, como en F 1, quiere decir que los valores de las observaciones tienden a
parecerse entre s (son homogneos y estn cerca de la media) y la curva se vuelve muy
apuntada, es decir, leptocrtica; pero si los valores son muy distintos entre s (heterogneos,
alejados de la media), como con F 3, la curva se aplana y se vuelve platocrtica. La curva
normal (F 2) queda enmedio de las otras dos y se le conoce como mesocrtica.

Adems, se observa que las tres distribuciones son muy distintas unas de las otras, aun
cuando tienen la misma media, por lo que podemos concluir que para la correcta
descripcin de una distribucin siempre debern referirse tanto las medidas de tendencia
central como las de dispersin.

Para saber si la aplicacin de la distribucin normal es adecuada para una distribucin


observada, se necesita conocer la curtosis y el sesgo (grado de asimetra) de esta ltima. En
la actualidad, con los programas de computadora disponibles, es fcil obtener estas
mediciones y determinar si lo observado se aleja o no de manera considerable de una
distribucin normal. Diferencias importantes impiden que se lleven a cabo anlisis ms
avanzados, como se ver en captulos posteriores.

g) La distribucin normal est descrita por:

Donde y es el valor que toma el eje de las ordenadas.


n: nmero de observaciones
B: 3.14159...
exp: es el nmero e (2.71828...), base de los logaritmos naturales (ln) elevado a la
potencia sealada.
x: valor de una observacin sobre el eje de las abscisas.
: media aritmtica de la distribucin.
F 2: varianza de la distribucin.

En siglos anteriores, este modelo deba ser aplicado para "normalizar" las observaciones y
obtener los valores de la probabilidad (rea bajo la curva) para la observacin de un suceso.
En un inicio (siglo XVIII), esto resultaba ser un problema de considerable magnitud, pues para
cada tamao de muestra (n) y para cada valor de la variable (x) haba que realizar las
operaciones necesarias; y si por acaso se modificaba, aunque fuera un poco, el tamao de la
muestra o alguno de los valores, lo hecho anteriormente ya no era til (en la actualidad los
medios electrnicos lo han resuelto por completo). Se pens entonces en construir una
distribucin modelo que pudiera ser aplicada en todos los casos: esta es la distribucin normal
estndar, en la cual se trata de determinar la distribucin de una variable imaginaria,
48

identificada como z, en lugar de la variable observada x, y que siempre tiene una = 0 y una
F = 1. Con esto se simplific considerablemente el modelo anterior, y se pudo definir la
probabilidad bajo la curva para cada valor de z (vase la tabla 1 del Apndice).

El razonamiento de lo anterior consiste en lo siguiente:


a) Se imaginaron una distribucin normal en la cual la media () siempre es igual a 0, y la
desviacin estndar es igual a 1. La media sera 0 porque, habiendo valores de la variable
mayores que ella, las diferencias de aqullos con respecto a sta resultaran positivas,
mientras que las diferencias de los valores menores que la media seran negativas; as, la
media estara en el origen de los ejes, cuyo valor es 0. Por otro lado, una desviacin
estndar igual a 1 simplificara cualquier operacin.
b) En el modelo de la distribucin normal arriba descrito, hicieron las sustituciones
correspondientes (como F = 1, entonces tambin F 2 = 1, por lo que no tena caso
conservarla en la ecuacin; como la = 0, tambin se omiti).

c) Pero como los valores de n podan cambiar, el problema persista, por lo que pensaron
en algn valor que pudiera ser de aplicacin general. Este valor era el rea total bajo la
curva, la probabilidad total, es decir, 1.

d) Pero como ya no se trataba de la distribucin de una variable observada, sino de una


distribucin imaginaria, ya no se estaba hablando de la variable x, por lo que le dieron otro
nombre: z.

L
e) Una vez hecho lo anterior, se determin el rea bajo la curva para distintos intervalos de
la distribucin de esta variable imaginaria z (vase la tabla 1 del Apndice).
f) Ahora que ya se tena una distribucin (distribucin normal estndar, de naturaleza
terica), cuyas reas bajo la curva (probabilidades), para distintos intervalos, eran
conocidas, slo restaba aplicarla a cualquier distribucin emprica, observada. Pero la
pregunta es cmo se puede lograr esto?
g) Hay que tomar en cuenta que la variable z est expresada en unidades de desviacin
estndar, pues si F = 1, entonces cuando z = 1= F. En otras palabras, z expresa el
alejamiento, la diferencia con respecto a en unidades de desviacin estndar. Por
49

consiguiente, si tomamos la diferencia de alguna observacin x con respecto a , y si esta


diferencia la relacionamos con F podremos ver qu distancia hay de x respecto a en
unidades de F , es decir, en valores de z.

L
As, se hizo el trabajo una nica vez y para siempre: la probabilidad entre dos valores
observados (x1, x2) puede encontrarse por la probabilidad entre z1 y z2 (vase el ejemplo 3.1).
No es extrao que se desconozcan los valores de y de F por lo que en su lugar debern
usarse los de la muestra.

3.4. APROXIMACIN DE LA DISTRIBUCIN BINOMIAL A LA NORMAL .


En el caso de la distribucin de probabilidades en cuanto al sexo de los hijos en familias de
dos o tres, se obtuvieron los siguientes resultados (inciso 3.2), donde p(m=r) es la probabilidad
de tener r hijos del sexo masculino:

n=2 p
p=0.5
p(m=0) 0.25
p(m=1) 0.5
p(m=2) 0.25
Total 1

n=3 p
p=0.5
p(m=0) 0.125
p(m=1) 0.375
p(m=2) 0.375
p(m=3) 0.125
Total 1

Si esto se representa en histogramas, en la primera situacin se observaran tres rectngulos


y en la segunda cuatro. Sin embargo, el rea total contenida en ellos es la misma: 1, o sea la
probabilidad total:
50

Si tomsemos familias con cinco hijos, el nmero de rectngulos (de posibles resultados) ser
mayor (y cada vez mas estrechos) pero contienen, al sumarlos, la misma probabilidad total:

n=5 p
p=0.5
p(m=0) 0.0313
p(m=1) 0.15625
p(m=2) 0.3125
p(m=3) 0.3125
p(m=4) 0.15625
p(m=5) 0.0313
Total 1
51

Con familias de 8, la distribucin de probabilidades tendra an una mayor cantidad de


rectngulos, cada vez ms estrechos, pues la probabilidad total, siempre igual a 1, debe
distriburse en cada ocasin en una mayor cantidad de resultados posibles:

n=8 p
p=0.5
p(m=0) 0.004
p(m=1) 0.0313
p(m=2) 0.10937
p(m=3) 0.21875
p(m=4) 0.27344
p(m=5) 0.21875
p(m=6) 0.10937
p(m=7) 0.0313
p(m=8) 0.004
Total 1

En otros fenmenos el nmero de posibles sucesos (n) puede ser ms grande. Si la cantidad
de ocurrencias posibles es grande, la distribucin binomial va tomando una forma parecida
a la distribucin normal, entre mayor sea n ms semejante ser aquella a esta, pero nunca
llegar a ser continua. Sin embargo, podemos aplicar lo que sabemos de la normal a la
binomial.
52

Las probabilidades extremas no se observan en la grfica por ser muy pequeas.

Debido a esta caracterstica de la distribucin binomial, y para evitar el clculo complejo de


probabilidades que supona, antes del uso generalizado de los instrumentos electrnicos, se
ha utilizado lo que se conoce como aproximacin de la distribucin binomial a la normal, a
travs de la cual se obtiene la puntuacin z para conocer la probabilidad de un suceso
binomial, donde:

Ntese que r hace las veces de x, y nB las de la media, mientras que el denominador es la
desviacin estndar (vase el captulo 2). Despus de lo cual, usando la tabla 1 del Apndice
podemos encontrar la probabilidad correspondiente.

Sin embargo, es necesario echar mano de lo que se conoce como correccin por continuidad,
dado que estamos tratando una variable cualitativa, o una discontinua, con un modelo para
variables continuas pues, de no hacerlo, las estimaciones tendrn un considerable margen de
error:

L
en ocasiones, en lugar de B se utiliza el valor de p (cuando tratamos con muestras).
53

Como ejemplo de la aproximacin, vase que si se utiliza la distribucin binomial en el caso


de las familias con 8 hijos, la probabilidad de que 6 o ms sean varones es igual a 0.14452
(usando la distribucin binomial), si obtenemos el valor de z, entonces:

Z = [(6-0.5) - (8*0.5)] / /(8*0.5*0.5) = 1.06

lo que de acuerdo a la tabla 1, significa que el rea bajo la curva por encima del valor de z =
1.06, es igual a 0.1446, lo que resulta prcticamente igual a lo obtenido con la distribucin
binomial. En la actualidad, con los medios electrnicos disponibles, este tipo de conversiones
no son necesarias para el clculo de probabilidades, pero es conveniente tenerlas en mente
porque se utilizan para anlisis que posteriormente se abordarn y que no permite hacer la
distribucin binomial.

Dos requisitos son indispensables para aplicar esta aproximacin:


a) El nmero de observaciones (n) debe ser grande.
b) La proporcin estudiada debe estar cercana a 0.5, ya que de no ser as la distribucin
binomial deja de ser simtrica y se aleja de la normal. Vase el caso cuando p = 0.3:

n=7 p
p=0.3
p(7) 0.00022
p(6) 0.00357
p(5) 0.025
p(4) 0.09724
p(3) 0.22689
p(2) 0.31765
p(1) 0.24706
p(0) 0.08235
Total 1

En este caso, la probabilidad de que cuatro o ms individuos tengan la caracterstica buscada


sera igual a 0.1260, de acuerdo a la distribucin binomial. Mientras que si utilizamos la
aproximacin, tendremos que z = 1.15, y la probabilidad resultante es igual a 0.1251, con un
cierto margen de error, debido a que la distribucin pierde la simetra (est sesgada), que
puede ser importante de acuerdo al problema de que se trate en la realidad, pero que ser
mayor conforme p se aleja de 0.5.
54

En la grfica siguiente se tienen cuatro distribuciones, basadas en distintas probabilidades (0.1,


0.5, 0.7 y 0.9). Puede verse que cuando p = 0.5, la distribucin es simtrica, pero al
modificarse la probabilidad, las distribuciones empiezan a presentar un sesgo, el cual es mayor
conforme la probabilidad se aleja ms de 0.5 (si la probabilidad es menor que 0.5, el sesgo se
hace positivo, si es mayor, el sesgo es negativo).

Las probabilidades extremas no se observan en la grfica por ser demasiado pequeas.


55

Ejemplo 3.1: Determinacin del rea bajo la curva (probabilidad).

INFORMACIN

En un grupo de pacientes que haban sufrido infarto al miocardio se encontr, despus de su


recuperacin y de un tratamiento especial seguido durante 3 aos, que su presin sistlica
media era de 136.0 mmHg, con una desviacin estndar de 23.6 mmHg.

Qu proporcin de estos pacientes esperara encontrar con


a) una presin sistlica menor que 120 mmHg?
b) una presin sistlica mayor que 160 mmHg?
c) una presin sistlica menor que 145 mmHg?
d) una presin sistlica entre 100 y 110 mmHg?
e) Por encima de qu nivel de presin sistlica estara el 2.3% de pacientes con presin
mas alta?

PROCEDIMIENTO

1. Identifique los datos bsicos:


0 = 136.0 mmHg
s = 23.6 mmHg

2. Encuentre las reas pedidas:


para esto, hay que convertir los valores de la variable observada (x) en valores de la variable
z.

a) En este caso x = 120, por lo que

z = (120 - 136) / 23.6

= -16 / 23.6

= -0.68

b) En este caso x = 150, por lo que

z = (160 - 136) / 23.6

= 24 / 23.6

= 1.02
56

N.B.: el signo negativo o positivo de z indica solamente el lado de la curva en el cual se est
trabajando; si es negativo, el valor se encuentra a la izquierda de la media (el valor en cuestin
es menor que la media), si es positivo, a la derecha (es mayor que la media). Como la curva
es simtrica, la tabla 1 del apndice nicamente muestra los valores positivos.

3. Encuentre el rea Bajo la Curva que est entre el Valor de y de z:


en la primera columna de la tabla 1 del apndice se muestran, encabezados por la letra z , los
valores enteros y el primer decimal, las otras columnas (0 a 9) corresponden al segundo
decimal de z (generalmente, z slo para dos decimales.

a) si z = -0.68, se busca en la primera columna de la tabla el valor 0.6, en esa fila se busca
el valor correspondiente a la columna encabezada por el nmero 8 (segundo decimal de
z. La tabla nos muestra que el rea bajo la curva que est entre = 0 y z = 0.68 equivale
a 0.2518 (o al 25.18% del total del rea bajo la curva).

Grfica A

Sin embargo, lo que interesa es el rea que se encuentra por debajo de z = -0.68, es decir,
la proporcin de los pacientes con una presin sistlica menor que 120 mmHg:

Grfica B
57

Entonces, si se sabe que el rea a cada lado de la media es igual a 0.5 (o al 50%):

Grfica C

simplemente se resta a este ltimo valor el rea obtenida en la tabla:

rea buscada = 0.5 - 0.2518

= 0.2482

La respuesta es que la proporcin de individuos que se espera encontrar con una presin
sistlica menor que 120 mmHg es 0.2482 o 24.82%.

b) Si z = 1.02, el procedimiento que se sigue es el mismo. Se busca en la tabla la fila donde


z = 1.0 y luego el valor indicado en esa misma fila para la columna encabezada por el
nmero 2. La tabla indica que el valor del rea bajo la curva entre = 0 y z = 1.02 es
0.3461:

Grfica D

Pero lo que interesa es el valor del rea por encima de z = 1.02, es decir, la proporcin de
los pacientes con una presin sistlica mayor que 160 mmHg:
58

Grfica E

y al igual que anteriormente:

z = 0.5 - 0.3461

= 0.1539

La respuesta es que la proporcin de pacientes que se puede esperar encontrar con una
presin sistlica mayor que 160 mmHg es 0.1539 o 15.39%.

c) Encuentre las respuestas a las otras preguntas. En la ltima, note que se debe proceder
en sentido inverso (primero, encontrar el valor de z y despus el de x, que es la interrogan-
te.

Ejemplo 3.2: Aproximacin de la Distribucin Binomial a la Normal.

INFORMACIN

En 65 pacientes tratados con warfarina (anticoagulante que se utiliza para prevenir


tromboembolias), se produjeron hemorragias graves. En 24 de ellos, estas fueron gastrointesti-
nales. Suponiendo que esta proporcin pueda tomarse como referencia para otros casos, cul
es la probabilidad de que en una muestra de 100 pacientes con hemorragia grave debida al
tratamiento con warfarina, sufran de hemorragia gastrointestinal?

PROCEDIMIENTO

1. Identifique la informacin bsica:


n = 100 pacientes tratados con warfarina y que sufren hemorragias graves
59

r = 40 pacientes de los anteriores que sufren hemorragia gastrointestinal


B = 24/65 = 0.3692, proporcin obtenida en el estudio mencionado, y que se toma como
referencia

2. Obtenga el valor correspondiente de z:

z = [(r-0.5) - (nB)] / /[nB (1-B)]

por lo tanto

z = (40-0.5)(100*0.3692) / /[100*0.3692*0.6308]

= 2.58 / /23.289

= 2.58 / 4.8259

= 0.53

3. Busque la correspondiente rea bajo la curva:


En la tabla 1, tenemos que el valor del rea desde la media hasta z = 0.53 es: 0.2019.

Como el rea que se pide es la que queda por encima de este valor, entonces: 1 - 0.2019 =
0.7981, por lo que se concluye que de estos 100 pacientes, se puede esperar que 79.81 por
ciento tengan hemorragia grave gastrointestinal.
60

CAPTULO 4: MUESTREO Y DISTRIBUCIONES DE MUESTRAS

4.1. POBLACIN Y MUESTRA .


En estadstica, la poblacin es un agregado o conjunto de observaciones que poseen ciertas
caractersticas en comn, definidas de acuerdo a los intereses de una investigacin. Este
concepto de poblacin se diferencia del que se tiene en la epidemiologa o en la demografa,
en las cuales se habla de conjuntos de personas. En el lenguaje estadstico, la poblacin puede
ser referida a individuos, pero tambin a agregados de ellos (por ejemplo, una poblacin de
familias o una poblacin de localidades), o a agregados de caractersticas (por ejemplo, una
poblacin de presiones arteriales o una poblacin de retinas).

Cuando la investigacin incluye el estudio de toda la poblacin se habla de un censo; si


nicamente se escoge una parte (n) se hace referencia a una muestra. El objetivo de esta
ltima no es, como en ocasiones se cree, conocer lo que sucede en la muestra misma, sino
obtener informacin que posteriormente pueda ser generalizada a la poblacin de la cual esa
muestra procede. Esto se conoce como estadstica inferencial.

Debido a que al tomar una muestra se estudia slo parte de la poblacin, las conclusiones que
de ella se obtengan siempre tendrn un grado de error; entonces, por qu llevar a cabo un
muestreo y no un censo?:
a) porque con frecuencia se trabaja con poblaciones infinitas y por lo tanto no es posible
llevar a cabo un censo, puesto que la poblacin siempre estar cambiando y en
consecuencia no se podr determinar el nmero total de sus elementos. Ejemplo de ellas
es el grupo de pacientes que requiere de un tratamiento particular, porque siempre habr
aquellos que dejen de necesitar el tratamiento (ya sea porque se curaron o porque
fallecieron) y otros que ingresan al grupo porque han adquirido la enfermedad;
b) porque al trabajar con una poblacin finita (aquella en la cual el nmero de elementos
puede ser definido) esta resulta demasiado grande o bien se desea ahorrar trabajo, tiempo
y costos.
c) o bien, aunque en ocasiones se est en capacidad para levantar un censo y se cuenta con
los recursos suficientes, al tomar una muestra parte de esos recursos puede ser mejor
aprovechada en la indagacin de otros problemas o en ahondar en ciertos aspectos del
asunto central.

En cualquier caso, al tomar una muestra tenemos las siguientes:


a) Ventajas: ahorro en trabajo, tiempo y costos; capacidad para entrenar a un nmero
conveniente de observadores bien calificados que recaben los datos de manera ms
confiable.
b) Desventajas: se pierde precisin. En realidad lo que hacemos es reemplazar una
afirmacin absoluta con respecto a la poblacin por una aproximacin (el trmino
estadstico es estimacin).
61

Al obtener una muestra, se desea conocer una de dos cosas:


a) el valor medio () de alguna medida, o
b) la proporcin (B) de la poblacin con alguna caracterstica.

Pero, como se dijo arriba, ya que slo se ha estudiado a una parte de la poblacin y no a toda
ella, las estimaciones tendrn un grado de error.

En otras palabras, nunca se podr esperar que las estimaciones muestrales sean iguales a los
valores reales, o parmetros, en la poblacin (0 =
/ ; p =/ B), si acaso sern aproximadamente
iguales. De hecho, si los valores obtenidos a partir de una muestra fuesen los mismos que los
de la poblacin, no lo sabramos, pues desconocemos estos ltimos, lo cual es el motivo del
estudio.

Es importante reconocer que al tomar una muestra pueden existir dos tipos de errores:
a) El error aleatorio (error de muestreo, error experimental) que surge debido al hecho
mismo de que estamos observando precisamente a una parte de la poblacin y no al total.
Este tipo de error tiene dos importantes caractersticas: conforme aumenta el tamao de la
muestra (n), el error disminuye (en un censo no hay error de muestreo); y adems puede
ser medido.
b) El error no aleatorio (error sistemtico), que se debe a la introduccin de sesgos en la
seleccin de la muestra, el cual constituye un descuido o una tendencia por parte del
observador, aunque tambin se puede deber al sujeto observado. Este tipo de error no
disminuye al aumentar el tamao de la muestra (no desaparece ni aun cuando se levanta
un censo) y no puede ser medido.

Dadas las caractersticas de ambos tipos de error, es importante reducir el primero y saber
evitar el segundo. Ello depender de la forma en que las unidades muestrales sean
seleccionadas. Aqu se tratarn nicamente los aspectos relacionados con el error de muestreo,
los errores sistemticos son motivo de estudio metodolgico ms que estadstico.

Una de las preocupaciones ms frecuentes cuando se toma una muestra, es que esta sea
representativa de la poblacin de la cual procede, esto es, que de alguna manera refleje
adecuadamente las caractersticas de la poblacin. Algunos autores prefieren no referirse a este
trmino por las dificultades implcitas que plantea. En todo caso la nica manera de "asegurar
la representatividad" consiste en la toma de una muestra aleatoria. Es decir, lo importante en
el muestreo es la forma en que se ha llevado a cabo.

La seleccin aleatoria se basa en que cada una de las unidades muestrales tiene la misma
oportunidad de ser elegida. Para ello, antiguamente se utilizaban las tablas de nmeros
aleatorios que an contienen los libros de estadstica (vase la tabla 2 del Apndice);
actualmente es fcil auxiliarse de distintos recursos electrnicos como son las calculadoras
cientficas de bolsillo o distintos programas de cmputo.
62

El uso de esta tabla es sencillo: en primer lugar se decide la cantidad de dgitos que han de
formar los nmeros que se seleccionarn; por ejemplo, si la poblacin de la cual se ha de
extraer la muestra est constituida por 500 elementos, se requiere de tres dgitos, por lo que
se numerarn desde 001 hasta 500; se decide de antemano el sentido en el que se ha de leer
la tabla (de izquierda a derecha, de derecha a izquierda, de abajo hacia arriba, o cualquier
combinacin que se desee); se escoge al azar el punto de inicio en la tabla y se procede a
seleccionar los nmeros.

Con instrumentos del tipo de las calculadoras cientficas de bolsillo se siguen los mismos
principios. Por lo general, estas calculadoras tienen una tecla ("random" o algo similar) que
produce nmeros en el formato de tres decimales. Tales nmeros son "semialeatorios" pues
son producidos a partir de un nmero "semilla". De cualquier forma, es necesario definir de
antemano cmo habrn de ser utilizados los resultados. Algunos programas de cmputo, como
Excel , pueden producir nmeros aleatorios con una amplia variedad de controles por parte
del usuario.

Como alternativa a la seleccin aleatoria existe la seleccin regulada, donde el investigador


escoge unidades muestrales tpicas del fenmeno estudiado. Este tipo de muestra, aunque en
ocasiones proporciona resultados ms precisos en el estudio de ciertos fenmenos (por
ejemplo, alguna enfermedad) tiene la desventaja de que no permite medir el error de
muestreo, no permite hacer estudios comparativos y est sujeta a la posibilidad de sesgos muy
importantes.

Otro tipo de seleccin es la sistemtica, en donde se toman las unidades muestrales que se
encuentran a cada determinado nmero de elementos que integran el universo (por ejemplo,
cada tercer paciente). Esto puede hacerse nicamente si el nmero de elementos selecciona-
dos es grande y la homogeneidad entre ellos no es importante para el estudio. Adems, se
puede "aleatorizar" al dejar al azar el nmero que resulte como punto de partida.

En lo subsecuente se supone que se hablar siempre de muestras aleatorias las cuales,


adems, pueden ser de diferentes tipos: simples, estratificadas, proporcionales, etc. Aqu se
supondr que hablamos siempre de las muestras aleatorias simples.

4.2. DISTRIBUCIONES MUESTRALES .


Cuando se toma una muestra aleatoria de tamao n y calculamos su media 0, se sabe que
debido al error de muestreo sta ser diferente de la verdadera media . Entonces, interesa
saber qu tan diferente es; en otras palabras, interesa conocer cul es la magnitud del error
de estimacin. Por supuesto nunca se podr conocer exactamente dado que se ignora el valor
de (pues si se conociese no tendra objeto hacer la investigacin).

Suponiendo que se toman muchas muestras (i muestras) todas del mismo tamao n y de la
misma poblacin, se pueden obtener entonces sus respectivas medias 0 i. Si estas resultan ser
similares entre s, se puede decir que el error de muestreo es pequeo. Si las 0 i difieren
63

ampliamente, el error sera grande. De qu depende entonces la magnitud del error?


Fundamentalmente de dos aspectos:
a) Como se vio anteriormente, el error de muestreo ser menor conforme el tamao de la
muestra aumente, de tal manera que en un censo completo no existe error de muestreo.
b) Pero adems, depender de la variabilidad (dispersin) de los valores en la poblacin
estudiada. Una poblacin heterognea (con F 2 grande) dar un error de muestreo mayor
que una poblacin homognea (con F 2 pequea); esto es resultado de que, en el primer
caso, los valores seleccionados para la muestra tendern a estar ms cercanos a .

De esta manera, el error de muestreo ser el resultado de la relacin entre dos factores: el
tamao de la muestra y la variabilidad de las observaciones, y esto se puede expresar como
sigue:

En esta relacin se puede ver que el resultado aumenta si aumenta la varianza y disminuye
si aumenta el tamao de la muestra.

Si, de acuerdo a la suposicin de prrafos anteriores, se obtuviesen diferentes medias 0 i (todas


con el mismo tamao) y se observase su distribucin, se podran advertir las siguientes
caractersticas:
a) La distribucin de las 0 i tiende a ser normal an cuando la distribucin de la variable
original que est bajo estudio no lo sea (teorema del lmite central; grfica 4.1).
b) La media de la distribucin de las 0 i es la misma que la media de la variable original en
la poblacin, o sea (grfica 4.1).
c) La varianza de la distribucin de las 0 i es F 2/n.
d) La desviacin estndar es la raz cuadrada de la varianza, y se le denomina error
estndar de la media (EE0):

o ms comnmente:

L EE0 =
el cual representa la magnitud del error de muestreo.
64

Grfica 4.1.

Ntese que si n aumenta el EE0 disminuye y si F aumenta el EE0 aumenta y viceversa.

Por lo general, como el valor de F se desconoce, deber ser substituido por el valor de la
muestra (s):

L EE0 =
Por ltimo, si la distribucin de las 0 i tiende a ser una distribucin normal, entonces podemos
aplicar las propiedades de sta a la distribucin de las medias muestrales. Esto significa que
el intervalo definido por:

1.96 EE0 incluye al 95% de las medias muestrales

similar al intervalo definido por:

1.96 F que incluye al 95% de las observaciones (vase el captulo 3; grfica 4.2).

Grfica 4.2.
65

Se puede definir el intervalo correspondiente para el 99 por ciento:

2.58 EE0 incluye al 99% de las medias muestrales

Para el caso de las variables binomiales tenemos que:

o ms comnmente:

L
Por lo general, como los valores de B se desconocen, debern ser sustitudos por el valor de
la muestra (p):

L
4.3. INTERVALOS DE CONFIANZA .
Una vez conocida la magnitud del error de muestreo, queda por responder a la pregunta sobre
qu tan buen estimador resulta la media de la muestra 0, de la media de la poblacin , cuyo
valor nos es desconocido. Anteriormente se vio que en una distribucin de medias muestrales
(0 i) el 95 por ciento de ellas caeran dentro del intervalo:

1.96 EE0

es decir, existe el 95 por ciento de probabilidad de que el error de estimacin no sea


numricamente mayor que 1.96 EE0 o, dicho en otras palabras, confiamos en que la nica
media observada 0, forme parte de ese conjunto de medias 0 i que tienen como media a y
como medida de dispersin al EE0. En la estimacin o inferencia cientficas se trabaja con este
concepto probabilstico en el que siempre habr un grado de incertidumbre pues, en nuestro
ejemplo, un 5 por ciento de las medias 0 i caer por fuera del intervalo 1.96 EE0. Podemos
construir un intervalo dentro del cual caiga el 99 por ciento de las medias 0 i, o el 99.9 por
ciento, o cualquier otro, pero nunca podremos definir un intervalo tal en que la certeza de
nuestras afirmaciones sea absoluta (recurdese que la distribucin normal es asinttica).

Sin embargo, el problema usual no es el anterior, ya que por lo regular no tomamos muchas
muestras de la misma poblacin. Se pretende que, a travs de una sola muestra, podamos
66

estimar el valor que tiene , la cual permanece desconocida y que es el motivo de la


investigacin.

Para lo anterior, dicho en palabras coloquiales, la inferencia cientfica juega a la lotera, pero
en sentido contrario: en la lotera, el jugador desea, o confa, que el nmero comprado salga
premiado con el premio principal, es decir, busca obtener, por medio del azar, el resultado
menos probable; en la inferencia estadstica se desea que la nica media 0 forme parte del
conjunto de medias 0 i que caen dentro del intervalo, por ejemplo, del 95 por ciento ( 1.96
EE0), en otras palabras, se confa en que no se obtendr el primer premio, en que el error de
estimacin no ser mayor que 1.96 EE0, y que por lo tanto, el intervalo definido por:

L 0 1.96 EE0
tenga en realidad una probabilidad del 95 por ciento de contener el valor de . Este intervalo
es llamado intervalo de confianza al nivel del 95 por ciento para la verdadera media de la
poblacin y es una medida de la precisin con que 0 estima el valor de . Ntese que es el
intervalo de confianza el que tiene una probabilidad dada de incluir el valor de y que no es
la que tiene esa probabilidad de caer dentro del intervalo.

Entre ms amplio resulte el intervalo al mismo nivel de confianza (por ejemplo 95 por ciento),
menor ser la precisin con que se est estimando el parmetro de la poblacin y viceversa.
Un intervalo muy amplio ser de menor utilidad prctica que uno estrecho.

El mismo razonamiento se sigue para las variables binomiales, donde el intervalo de confianza
del 95 por ciento para la verdadera proporcin de la poblacin (B) es:

L p 1.96 EEp
Por supuesto, se pueden definir otros intervalos a distintos niveles de confianza:

0 2.58 EE0
p 2.58 EEp

que son los intervalos correspondientes al nivel de confianza del 99 por ciento. Por supuesto,
el intervalo del 99 por ciento ser ms amplio que el del 95 por ciento, con un mismo error
estndar, debido al simple hecho de que se abarca un rea mayor bajo la curva (no a que sea
menos exacto).

Estos dos intervalos son los ms usados en la investigacin, pero ello es arbitrario y se puede
utilizar cualquier otro.
67

Es por medio de estos intervalos que se puede estimar el valor desconocido de un parmetro
de la poblacin ( o B) por medio de una muestra, con una cierta probabilidad de acertar y,
en consecuencia, con una cierta probabilidad de equivocarse (que siempre existir y que en
ocasiones puede hacerse real, por pequea que nos parezca; hay quienes obtienen el primer
premio de la lotera!; vanse los ejemplos 4.1 y 4.2).
68

Ejemplo 4.1: Obtencin de un Intervalo de Confianza para la Verdadera Media en una


Poblacin.

INFORMACIN

En un estudio realizado en una comunidad rural de Mxico, se tom una muestra de 127
individuos, a quienes se les midi el nivel de colesterol srico. Los resultados arrojaron una
media (0 ) igual a 250.16 mg/100 ml y una desviacin estndar (S) igual a 48.29 mg/100 ml.
Suponiendo que esta muestra fue correctamente tomada y que es representativa de la
poblacin de la cual se obtuvo, cul sera el intervalo de confianza del 95 por ciento para
estimar la verdadera media de la poblacin?

PROCEDIMIENTO

1. Defina los datos bsicos:


n = 127 individuos
0 = 250.16 mg/100 ml por individuo
s = 48.29 mg/100 ml

2. Obtenga el error estndar:


EE0 = s/%n

= 48.29/%127

= 48.29/11.269

= 4.29 mg/100 ml

3. Obtenga el intervalo de confianza del 95 por ciento:


0 1.96 EE0

250.16 (1.96 * 4.29)

250.16 8.41

es decir, de 241.75 mg/100ml a 258.57 mg/100ml

INTERPRETACIN
69

Con un 95 por ciento de probabilidades de acertar, se puede afirmar que el valor de la


verdadera media de colesterol srico, en la poblacin de la cual fue tomada esta muestra, se
encuentra entre 241.75 y 258.57 mg/100ml.
70

Ejemplo 4.2: Obtencin de un Intervalo de Confianza para la Verdadera Proporcin en una


Poblacin.

INFORMACIN

La infeccin por virus de hepatitis B (VHB) puede tener diferentes consecuencias, como son
la hepatitis aguda, la hepatitis activa crnica, la cirrosis y el carcinoma hepatocelular primario.
En los adultos esta infeccin es responsable de una gran parte de tales enfermedades. En un
estudio realizado en Argentina, fueron examinadas 276 personas con hepatitis crnica, de las
cuales 174 resultaron positivas al VHB; en otro estudio, llevado a cabo en Chile fueron
examinadas 48 personas con carcinoma hepatocelular, de las cuales 34 resultaron positivas
para el VHB.

Suponiendo que estas fueron muestras seleccionadas al azar, determine:


a) el intervalo de confianza del 95por ciento para la verdadera proporcin (B) de pacientes
con hepatitis crnica VHB positivos en Argentina.
b) el intervalo de confianza del 95por ciento para la verdadera proporcin (B) de pacientes
con carcinoma hepatocelular VHB positivos en Chile.

PROCEDIMIENTO

Para el problema (a):


1. Defina los datos bsicos:
n = 276 pacientes con hepatitis crnica
r = 174 pacientes con hepatitis crnica VHB positivos

2. Obtenga la proporcin de la muestra:

p=r/n

= 174 / 276

= 0.6304

3. Obtenga el error estndar:

EEp = %[p(1-p) / n]

= %[0.6304*0.3696 / 276]
71

= 0.0291

4. Obtenga el Intervalo de Confianza del 95 por ciento:

p 1.96 EEp

0.6304 (1.96 * 0.0291)

0.6304 0.057

esto es, de 0.5734 hasta 0.6874.

INTERPRETACIN

Con un 95 por ciento de probabilidad de acertar (o de confianza), se puede afirmar que la


verdadera proporcin de pacientes con hepatitis crnica que son VHB positivos se encuentra
entre 0.5734 y 0.6874, es decir, entre el 57.34 por ciento y el 68.74 por ciento.

Esto ser vlido solamente para la poblacin de la cual fue extrada la muestra y en el caso
de que esta realmente haya sido obtenida por mtodos aleatorios.

Obtenga el intervalo de confianza del 99 por ciento.

Obtenga los resultados para el problema (b).


72

CAPTULO 5: CONTRASTE DE HIPTESIS


PARA UNA SOLA MUESTRA

5.1. UNA SOLA MEDIA .


En ocasiones, al tomar una sola muestra, interesa saber si los resultados obtenidos (0)
proceden de una poblacin de la que es conocida. Esta situacin es comn cuando tratamos
de ver si, por ejemplo, los enfermos de un padecimiento se diferencian de la poblacin sana
(de la cual se supone se conoce su verdadera media) en cuanto a, por ejemplo, un resultado
de laboratorio. Por supuesto, en estricto sentido, una poblacin de este tipo sera infinita y en
realidad no podramos llegar a conocer su verdadera media.

En la realidad, es difcil decir que se conoce F, por lo que hay que utilizar el valor de la
desviacin estndar de la muestra (s).

En primer lugar, siempre se pone a prueba una afirmacin que se denomina hiptesis nula
(Ho) la cual establece que la media 0 en realidad procede de la poblacin con media , y que
toda diferencia observada se debe al error de muestreo y no a una verdadera diferencia (es
decir, en este caso la hiptesis nula nos dira que la medicin que estamos tomando en los
enfermos tiene la misma media que la de la poblacin sana). En otras palabras, la Ho
establece la nulidad de las diferencias entre las dos medias y esto es algo que requiere ser
probado. A la prueba que se hace para verificar lo anterior se le llama contraste de hiptesis
o prueba de hiptesis.

Una forma de abordar el problema es a travs del establecimiento de intervalos de confianza.


Si se sabe que el intervalo definido por:

1.96

incluir al 95 por ciento de las medias 0 i (todas del mismo tamao n; vase el captulo 4),
entonces la probabilidad de que la 0 observada caiga dentro de ese intervalo es igual a 0.95;
si en algn caso no es as, se dice que se ha encontrado una diferencia significativa al nivel de
significancia del 0.05 o 5 por ciento, lo cual se expresa como:

p < 0.05

donde p se interpreta siempre como la probabilidad de equivocarse al rechazar la hiptesis


nula. Es decir, en este caso se rechazara la Ho con una probabilidad de error menor que 0.05
o 5 por ciento. Esto quiere decir que se ha encontrado evidencia de que existe una diferencia
entre 0 y .
73

Si la 0 cae dentro de ese intervalo, entonces no se puede rechazar la Ho a ese nivel de


significancia, puesto que su valor est dentro del intervalo en el que caera la mayora de las
0 i que tienen como verdadera media a , y se expresa como:

p > 0.05

lo que indica que la probabilidad de equivocarse al rechazar la Ho es mayor que 0.05 o que
el 5 por ciento. Es decir, que no se ha encontrado evidencia de alguna diferencia significativa
y que la observada entre 0 y se debe slo al error de muestreo.

Debe tenerse presente que una Ho nunca se acepta, pues un resultado negativo nunca es
evidencia de nada, es decir, el hecho de que no se observe una diferencia significativa no
quiere decir que esta no exista.

Si se desean otros niveles de significancia, se pueden construir los intervalos respectivos, como
por ejemplo:

2.58

para el nivel de significancia del 0.01 o 1 por ciento, y los resultados se expresan como:

p < 0.01

o bien como:

p > 0.01

segn sea el caso de que se trate de una diferencia significativa o no, respectivamente.

Sin embargo, este procedimiento puede resultar tedioso si hay que comparar la 0 con varios
niveles de significancia (por ejemplo, si resulta significativa al nivel de 0.05 y se desea ver si
tambin lo es al nivel de 0.01), pues en cada caso se deber construir el intervalo de confianza
respectivo. Una manera ms sencilla de hacer la prueba o contraste consiste en obtener la
puntuacin z para la diferencia de las medias, donde:

y si el resultado es numricamente mayor que 1.96 (sin importar el signo), entonces la


diferencia entre 0 y es significativa (p < 0.05), como anteriormente. Al mismo tiempo, y sin
74

necesidad de hacer ninguna otra operacin, se puede ver si z es mayor que 2.58 y si es as,
la diferencia tambin ser significativa al nivel de 0.01 (p < 0.01).

La interpretacin que se puede hacer es igual a lo dicho con respecto a los intervalos de
confianza, cuando z es menor que 1.96 o 2.58 entonces: p > 0.05 o p > 0.01. En el caso de
que z sea mayor que 1.96 pero menor que 2.58, entonces:

0.01 < p < 0.05

lo que quiere decir que se ha encontrado diferencia significativa al nivel del 5 por ciento pero
no al nivel del 1 por ciento. En la actualidad con los medios electrnicos al alcance, es comn
encontrar la probabilidad exacta en expresiones como:

p = 0.038

que equivaldra a 0.01 < p < 0.05.

Es necesario aclarar que los niveles de significancia del 1 por ciento, 5 por ciento o cualquier
otro son arbitrarios y dependern del problema estudiado y de las preferencias del
investigador establecidas de antemano en el protocolo de investigacin.

Por otro lado, debe tenerse en cuenta que "significativo" en estadstica, indica que la diferencia
no es fcilmente explicada por el azar, esto es, por el error de muestreo, y que entonces
debera ser explicada de otras maneras (por ejemplo, a travs de la influencia de alguna
variable que se est estudiando).

Adems, es importante recordar siempre que una diferencia estadsticamente significativa no


necesariamente implica una diferencia importante en trminos del fenmeno real estudiado,
y que existe la posibilidad de error en las conclusiones (rechazar una Ho cuando en realidad
no hay diferencia, o no rechazarla cuando s la hay). La decisin final acerca de la importancia
que puede tener una diferencia dada, depender de criterios distintos a los puramente
estadsticos (vase el ejemplo 5.1).

Debemos insistir en que nuestras conclusiones, basadas en principios probabilsticos, siempre


contienen la posibilidad de resultar errneas.

5.2. UNA SOLA PROPORCIN .


En el caso de las proporciones, la comparacin que se hace es la siguiente:

L
75

o su equivalente:

las dos frmulas dan los mismos resultados los cuales, de acuerdo a la magnitud de z, se
interpretan de la misma manera que para el caso de las medias (vase el ejemplo 5.2).
76

Ejemplo 5.1: Contraste de Hiptesis para Una Sola Media

INFORMACIN

La infeccin por microorganismos provoca una compleja respuesta en el hospedero, la cual


puede incluir alteraciones en el metabolismo intermedio. Entre otras cosas, se puede producir
una disminucin en los procesos de remocin de lipoprotenas circulantes, a la vez que un
incremento en la sntesis heptica de lpidos. Se piensa que estas alteraciones son producidas
por las citoquinas liberadas durante la respuesta inmune. Por estos motivos, se ha sugerido
que puede existir una asociacin entre el sndrome de inmunodeficiencia adquirida (SIDA) y
los niveles elevados de triglicridos en la sangre.

En un estudio en el que se analizaron estos niveles, en 32 pacientes con SIDA, se encontr una
media de 231 mg/dl. Si en la poblacin normal el nivel promedio es de 91 mg/dl, con una
desviacin estndar de 41.23 mg/dl, existe evidencia de que la hipertrigliceridemia puede
considerarse como una manifestacin del SIDA?

PROCEDIMIENTO

1. Identifique la informacin bsica:


= 91 mg/dl
F = 41.23 mg/dl
0 = 231 mg/dl
n = 32 pacientes

2. Establezca la hiptesis nula:


En este caso, la Ho podra plantearse como: la diferencia observada entre la media de
triglicridos en los pacientes con SIDA, y la de la poblacin sana se debe nicamente al error
de muestreo y no al hecho de que aqullos estn enfermos.

3. Obtenga el error estndar:

EE0 = F / %n

= 41.23 / %32

= 7.2885

4. Obtenga el valor de z:
77

z = (0 - ) / EE0

= (231-91) / 7.2885

= 19.21

INTERPRETACIN

Ya que el valor de z es numricamente mucho mayor que los niveles crticos de 1.96 y de 2.58,
se puede rechazar la hiptesis nula al nivel de significancia del 1 por ciento o inclusive de 0.1
por ciento:

p < 0.001

(en realidad, p = 5.58 *10-52).

Esto quiere decir que los niveles de triglicridos en sangre son significativamente ms altos en
los pacientes con SIDA, comparados con la poblacin sana; o en otras palabras, que los
pacientes con SIDA pertenecen a una poblacin cuyos niveles de triglicridos son ms altos
que los de la poblacin sana.

Pero muchas veces interesa saber si esta diferencia, estadsticamente significativa, es tambin
importante en trminos clnicos o biolgicos. Para ello se debe obtener el intervalo de
confianza para la verdadera diferencia entre 0 y , puesto que la diferencia observada est
basada en los resultados obtenidos de una muestra y no puede considerarse como la
verdadera:

L (0 - ) (1.96)(EE0)
Para lo cual se sustituyen los correspondientes valores:

(231 - 91) (1.96)(7.2885)

140 14.29

Es decir, el intervalo de confianza para la verdadera diferencia est entre 125.7 y 154.3 mg/dl.
En otras palabras, con un nivel de confianza del 95 por ciento, podemos afirmar que los
niveles de triglicridos en la sangre son ms altos en los pacientes con SIDA, comparados con
las personas sanas, en al menos 125.7 mg/dl y hasta 154.3 mg/dl.
78

Ejemplo 5.2: Contraste de Hiptesis para Una Sola Proporcin.

INFORMACIN

En un estudio para verificar la teora de que la resistencia a la dieldrina (0.4 por ciento con
exposicin de una hora) es debida a un solo gene dominante en Anopheles farauti,
homocigotos resistentes (RR) fueron cruzados con homocigotos susceptibles (rr) para producir
una poblacin de heterocigotos (F1). Los mosquitos F1 fueron nuevamente cruzados con una
cepa de homocigotos susceptibles. De acuerdo con la teora de la determinacin unignica,
el porcentaje de la progenie de este ltimo entrecruzamiento que podra ser susceptible a la
dieldrina es de 50 por ciento. De 465 mosquitos de esta progenie, 264 (56.77 por ciento)
murieron. Es este porcentaje significativamente diferente al porcentaje que predice el modelo
gentico?

PROCEDIMIENTO

1. Identifique la informacin bsica:


B = 0.5 (proporcin predicha por la teora)
n = 465 (mosquitos estudiados)
r = 264 (mosquitos muertos)
p = 0.5677 (proporcin observada)

2. Establezca la hiptesis nula:


La Ho podra plantearse de la siguiente manera: la diferencia en el porcentaje de mosquitos
muertos entre el experimento realizado y lo predicho por la teora, se debe solamente al error
de muestreo; es decir, la teora de que la resistencia a la dieldrina se debe a un nico gene
dominante, es cierta.

3. Obtenga el error estndar:

EEp = %[B(1-B) / n]

= %[0.5*0.5 / 465]

= 0.0232

4. Obtenga el valor de z:

z = (p - B) / EEp
79

= (0.5677-0.5) / 0.0232

= 2.919

o de acuerdo a la otra frmula

z = (r - nB) / %[nB(1-B)]

= 264-232.5 / 10.78

= 2.92

INTERPRETACIN

Ya que el valor de z es mayor que 1.96 se puede rechazar la hiptesis nula

p < 0.05

e inclusive puede hacerse al nivel de significancia del 1 por ciento

p < 0.01

(en realidad p = 0.0035).

Por este motivo se puede afirmar que existe evidencia para rechazar la hiptesis de que la
resistencia a la dieldrina se debe a un nico gene dominante, y que por lo tanto, debe
buscarse alguna otra explicacin al fenmeno.

Al haber encontrado una diferencia significativa entre la proporcin esperada por la teora y
la observada, resulta de inters estimar la verdadera magnitud de esa diferencia. Para tal caso
se puede construir un intervalo de confianza (95 por ciento, 99 por ciento o cualquier otro)
para la verdadera diferencia. El intervalo de confianza del 95 por ciento es:

L (p - B) 1.96 EEp
0.0677 (1.96 * 0.0232)

0.0677 0.0455

lo que quiere decir que la magnitud de la verdadera diferencia entre las proporciones esperada
y observada, con un 95 por ciento de probabilidad de acertar, est entre 0.0222 y 0.1332 o
80

que el porcentaje de mosquitos muertos observado debe ser mayor que el esperado por la
teora entre 2.22 y 13.32 puntos porcentuales.
81

CAPTULO 6: CONTRASTE DE HIPTESIS


PARA DOS MUESTRAS GRANDES

Tal vez una de las tcnicas estadsticas ms comunes utilizadas en la investigacin mdica sea la comparacin
de los resultados de dos muestras, por ejemplo, al comparar el efecto que dos tratamientos distintos pueden tener
sobre sendos grupos de individuos con caractersticas similares. Al hacer esto, se puede determinar si los niveles
medios de algn indicador se modifican de manera ms favorable con uno de los tratamientos o si estos tienen
efectos similares, o bien si es mayor la proporcin de individuos que presentan alguna mejora, o son curados,
con un tratamiento en comparacin con el otro.

En este captulo se muestra el procedimiento que se sigue en casos donde se tienen dos muestras cuyo tamao
es grande, y lo que se desea es contrastar la hiptesis nula de que son iguales entre s.

6.1. MEDIAS DE DOS MUESTRAS.


Supongamos que existen dos poblaciones, una con 1, F1 y la otra con 2, F2. Si se toman muestras de tamao
n1 y n2 de estas dos poblaciones (no se requiere que estas muestras sean del mismo tamao), se calcula la
diferencia de sus medias (01 - 02) y se repite el procedimiento i veces, se puede encontrar que:
a) la media de la distribucin de las diferencias (01 - 02)i es (1 - 2), es decir, la diferencia de las medias de
las respectivas poblaciones).
b) la varianza de la distribucin de las diferencias es la suma de las varianzas individuales, es decir:

varianza (01 - 02) = varianza(01) + varianza(02)

= F12/n1 + F22/n2

Siendo el error estndar de la diferencia de las medias, EE(01-02):

L EE(0 -0 ) =1 2

En el caso de una sola muestra ponemos a prueba la Ho que afirma que la 0 procede en
realidad de una poblacin con media y que toda diferencia observada se debe al error de
muestreo. La respuesta se obtuvo calculando (captulo 5):

En el presente caso, ya que se cuenta con dos muestras, la Ho establece que las medias 0 1
y 0 2 han sido tomadas de poblaciones cuyas medias 1 y 2 son iguales, es decir:

1 = 2, o bien
1 - 2 = 0
82

y que la diferencia observada entre 0 1 y 0 2 es debida nicamente al error de muestreo.

Para probar (contrastar) la hiptesis nula, de nuevo se calcula z, pero ahora se sustituyen los
valores de 0 por (0 1 - 0 2) y de por (1 - 2), y el error estndar de la media EE0 por el error
estndar de la diferencia de las medias EE(0 1-0 2):

lo cual, de acuerdo a la Ho queda como sigue:

donde el valor cero expresa lo afirmado por la Ho.

Debido a que F generalmente permanece desconocida y a que se trata de muestras grandes


(en donde s tiende a parecerse a F), entonces se utilizan los valores muestrales s21 y s22 como
estimadores, quedando la frmula que se utilizar como:

El valor de z que se obtenga se interpreta de la misma manera que en el caso de una sola
media, generalmente a los niveles crticos del 5 por ciento y del 1 por ciento. Debe tenerse
presente que si primero se obtuvo el valor de z con una sola media muestral para estimar el
valor de la verdadera media de la poblacin (captulo 4) y luego se obtuvo para el valor de
z para ver la verdadera diferencia entre 0 y (captulo 5), ahora se calcula z para indagar la
verdadera diferencia entre dos medias de las muestras, 0 1 y 0 2.

Finalmente, resulta importante estimar la magnitud de la verdadera diferencia (si es que se ha


encontrado una diferencia significativa) entre las dos muestras estudiadas. Esto se puede hacer
construyendo un intervalo de confianza para la verdadera diferencia, por ejemplo:

(0 1-0 2) 1.96 EE(0 1-0 2)

o cualquier intervalo a otros niveles de confianza (vase el ejemplo 6.1).

6.2. PROPORCIONES DE DOS MUESTRAS.


83

En el caso de las variables binomiales, frecuentemente interesa saber si la proporcin de


individuos con una caracterstica dada difiere en dos grupos que se comparan. La Ho dice que
las proporciones, B 1 y B 2, de las poblaciones de las cuales proceden las muestras, son iguales:

B 1 = B 2, o bien
B1 - B 2 = 0

Por ello, de las dos muestras se pretende obtener la mejor estimacin de B que sea posible,
esto es, una proporcin combinada (pc), donde:

Con la cual se puede calcular el error estndar de la diferencia de las proporciones EE(p1-p2),
que originalmente sera:

pero que al sustituir B por la estimacin pc, se tiene:

y ya simplificado:

L EE(p -p ) =
1 2

Con cuyo valor se puede proceder a obtener el valor de z para la diferencia de las
proporciones:

Y de la misma manera que para la diferencia de medias, se puede obtener el intervalo de


confianza para la verdadera diferencia de las proporciones:
84

(p1-p2) 1.96 EE(p1-p2)

(vase el ejemplo 6.2).


85

Ejemplo 6.1: Contraste de Hiptesis para las Medias de Dos Muestras.

INFORMACIN

En un estudio de la edad a la menarquia en mujeres de EUA, se obtuvo la siguiente


distribucin por edades en una muestra de dos generaciones de mujeres, una con edades
entre 21 y 30 aos y la otra con edades entre 31 y 40 aos en el momento del estudio.

Se pretende probar la hiptesis de que no hay diferencia en la edad promedio a la menarquia


entre ambos grupos de mujeres.

Edad a la Mujeres de
Menarquia 31-40 aos 21-30 aos

10 0 3
11 2 11
12 8 28
13 14 23
14 27 12
15 5 1
16 8 0
17 1 0
18 1 0
TOTAL 16 78

PROCEDIMIENTO

1. Identifique y obtenga los datos bsicos:


n1 = 66 mujeres de 31-40 aos n2 = 78 mujeres de 21-31 aos
0 1 = 13.88 aos de edad a la menarquia 0 2 = 12.42 aos de edad a la menarquia
2 2
s1 = 1.93 s2 = 1.17

2. Obtenga el error estndar de la diferencia de las medias:

EE(0 1-0 2) = %[s21/n1 + s22/n2]

= %[1.93/66 + 1.17/78]

= %0.0442
86

= 0.2103

3. Obtenga el valor de z para la diferencia de las medias:

z = (0 1-0 2) / EE(0 1-0 2)

= (13.88-12.42) / 0.2103

= 6.94

INTERPRETACIN

Como z es mayor que el valor crtico de 1.96, y an mucho mayor que 2.58, la diferencia entre
las medias resulta altamente significativa:
p < 0.001
-6
(en realidad, p = 0.1099 * 10 ).

Esto quiere decir que existe evidencia de que la edad promedio a la menarquia ha variado (ha
disminuido, de acuerdo a las medias muestrales) significativamente entre una y otra
generacin.

4. Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre las
medias:

Ya que se encontr una diferencia altamente significativa entre las dos medias de las muestras,
interesa saber cul puede es la magnitud del cambio:

(0 1-0 2) 1.96 EE(0 1-0 2)

(13.88-12.42) (1.96 * 0.2103)

1.46 0.4122

lo que da un intervalo que se encuentra entre 1.05 y 1.87 aos de diferencia en la edad a la
menarqua.

INTERPRETACIN: con un 95 por ciento de probabilidades de acertar, se puede afirmar que


la edad a la menarquia se ha reducido entre 1.05 y 1.87 aos en promedio para las mujeres
de la generacin ms joven.
87

Ejemplo 6.2: Contraste de Hiptesis para las Proporciones de Dos Muestras.

INFORMACIN

La mayora de las mujeres que voluntariamente se someten a esterilizacin quirrgica dicen


no arrepentirse de su eleccin. No obstante, entre el 1 por ciento y el 3 por ciento solicitan ms
tarde la recanalizacin quirrgica de las trompas, lo cual se puede lograr con mtodos
modernos, aunque complejos y costosos. El porcentaje de xitos vara entre el 50 por ciento
y el 70 por ciento, dependiendo, entre otras cosas, del mtodo de esterilizacin que se haya
seguido.

En un estudio se vio que de 299 mujeres recanalizadas despus de la esterilizacin por medio
de la ligadura de Pomeroy, 176 lograron tener un embarazo a trmino; en comparacin, de
258 mujeres recanalizadas despus de la esterilizacin con electrocoagulacin, 111 lograron
tener un embarazo a trmino.

Para ver si existe una diferencia significativa entre ambos grupos de mujeres, respecto al
porcentaje que logra tener un embarazo a trmino despus de la recanalizacin:
a) establezca la hiptesis nula.
b) obtenga el porcentaje de mujeres que lograron un embarazo a trmino en uno y
otro casos.
c) realice el contraste de hiptesis para ver si existe una diferencia entre ambos
porcentajes.
d) obtenga el intervalo de confianza para la verdadera diferencia, en caso de que esta
sea significativa.

PROCEDIMIENTO

1. Establezca la hiptesis nula:

Una forma de plantear la hiptesis nula podra ser: los resultados de la recanalizacin
quirrgica en mujeres que han sido esterilizadas por la ligadura de Pomeroy y en las que lo
han sido por electrocoagulacin, en realidad son iguales, cualquier diferencia observada se
debe al error de muestreo.

2. Obtenga los porcentajes de embarazos:

GRUPO A (LIGADURA DE POMEROY) GRUPO B (ELECTROCOAGULACION)


n1 = 299 mujeres recanalizadas n2 = 258
r1 = 176 mujeres con embarazo a trmino r2 = 111
88

p1 = 176/299 = 0.5886 o 58.86% p2 = 111/258 = 0.4302 o 43.02%

3. Obtenga la Proporcin Combinada:

pc = (r1+r2) / (n1+n2)

= (176+111) / (299+258)

= 0.5153

4. Obtenga el error estndar de la diferencia de las proporciones:

EE(p1-p2) = /[pc(1-pc)(1/n1 + 1/n2)

= /[0.5153(1-0.5153)(1/299 + 1/258)

= 0.0425

5. Obtenga el valor de z para la diferencia de las proporciones:

z = (p1-p2) / EE(p1-p2)

= (0.5886-0.4302)/0.0425

= 3.73

INTERPRETACIN

Como z es numricamente mayor que el valor crtico de 2.58, se puede afirmar que existe una
diferencia significativa entre ambos grupos de pacientes en cuanto al xito de la recanalizacin,
el cual es mayor para las mujeres que siguieron la esterilizacin por medio de la ligadura de
Pomeroy:

p < 0.001

(en realidad, P = 0.00019).

6. Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre las
proporciones:
89

Debido a que se encontr una diferencia significativa, es conveniente obtener este intervalo,
con el objetivo de determinar cul puede ser la magnitud de la verdadera diferencia:

(p1-p2) 1.96 EE(p1-p2)

(0.5886-0.4302) (1.96 * 0.0425)

0.1584 0.0833

es decir, la verdadera diferencia se encuentra entre 0.0751 y 0.2417.

INTERPRETACIN: con un 95 por ciento de probabilidad de acertar, se puede afirmar que


la verdadera proporcin de xitos en la recanalizacin es mayor entre 7.51 y 24.17 puntos
porcentuales para las pacientes que fueron esterilizadas por medio de la ligadura de Pomeroy,
comparadas con las que se sometieron a la electrocoagulacin.
90

CAPTULO 7: DISTRIBUCIN t DE STUDENT

El contraste de hiptesis para la media de una sola muestra implica el clculo de:

cuyo resultado se compara con los niveles crticos de 1.96 o de 2.58 (o alguno otro que se
desee). Sin embargo, F generalmente permanece desconocida, por lo que se utiliza s como su
estimador.

Si el tamao de la muestra es grande (n > 30) entonces s se aproxima al valor de F, pero si


el tamao de la muestra es pequeo (n < 30) se introduce una fuente adicional de error en
los clculos pues en estas circunstancias s tiende a ser menor que F, por lo que se subestima
el error de muestreo por lo que la probabilidad de equivocarse al decir que se ha encontrado
una diferencia significativa es mayor que lo dicho en los captulos anteriores. Debido a esto,
se deben hacer modificaciones apropiadas introduciendo lo que se conoce como Teora de
Muestras Pequeas, o ms apropiadamente Teora Exacta de Muestreo, ya que sus resultados
son vlidos tambin para muestras grandes. Esta es la Distribucin t de Student.

En este caso, al introducir el valor s basado en una muestra pequea, se obtiene una nueva
estimacin:

que es por completo anloga a z.

Sin embargo, el valor observado de t deber compararse con valores crticos ms estrictos y
ya no con los valores de z (que son 1.96 al nivel de significancia de 0.05 o 2.58 al nivel de
significancia de 0.01) pues estos incluirn una rea menor bajo la curva y, por lo tanto, la
probabilidad de errar, al utilizarlos, ser mayor. Los valores con los que se compare t no son
fijos, y dependern de qu tan buen estimador sea s de F, lo que est en relacin con el
tamao de la muestra, es decir, con los grados de libertad (n-1).

Para poder aplicar esta distribucin se deben cubrir los siguientes supuestos bsicos:
a) Las observaciones son independientes.
b) Las muestras han sido tomadas de poblaciones que se distribuyen normalmente.
c) Las varianzas son iguales. Para esto se recurre a algunas pruebas como la F de
Snedecor para el contraste de las varianzas.
91

En el caso de que de que no se cumplan estos requisitos se deber utilizar las pruebas
conocidas como no paramtricas. Tampoco se utiliza la prueba de t para contrastar
proporciones obtenidas con muestras pequeas.

La interpretacin de los niveles de significancia para la prueba de t es igual que en el caso de


z, aunque los valores crticos con los que se le compara, como ya se dijo, varan de acuerdo
al tamao de la muestra.

La prueba de t es muy til en los estudios clnicos pues con frecuencia no es posible tener un
grupo grande de pacientes para realizar las investigaciones, y por lo tanto, el observador se
ve obligado a trabajar con muestras pequeas (esto es particularmente cierto en estudios de
casos y testigos sobre enfermedades de baja frecuencia).

7.1. MUESTRAS PAREADAS .


En muchas ocasiones, al efectuar un estudio mdico se desea establecer una comparacin
entre dos grupos de individuos (comparar dos tratamientos, comparar casos y testigos,
etctera) y se recurre al pareamiento de los casos de uno y otro grupo. En tal situacin:

y la Ho que utilizamos ser que la diferencia de las medias de las poblaciones (1-2) de donde
proceden las muestras, es cero:
1 = 2
1 - 2 = 0
De tal manera que:

L
donde n es el nmero de pares de observaciones y
sd es la desviacin estndar de las diferencias entre cada par.

Ntese que en estos estudios a cada caso del primer grupo le corresponde un
caso en particular del segundo grupo, pues estn organizados por pares:

x11, x12 (observacin 1 del grupo 1, observacin 1 del grupo 2)


x21, x22
x31, x32
.
.
92

.
xn1, xn2

por lo que se puede obtener la diferencia para cada uno de los pares de
observaciones (di = xi1 - xi2), a partir de las cuales se calcula la media de las
diferencias, Gd, y su desviacin estndar, sd, es decir, cada par es tratado como
si fuera una nica observacin.

El resultado se compara con el valor de t en la tabla de la distribucin terica de acuerdo al


nivel de significancia elegido y a los grados de libertad (tabla 3 del Apndice; vase el ejemplo
7.1).

Si el valor absoluto (sin tomar en cuenta el signo) de t observada es menor que el de la tabla,
al nivel de significancia elegido, no se puede rechazar la Ho (se dice que no se observ
diferencia significativa); si, por el contrario, es mayor que el de la tabla, se rechaza la Ho, de
manera anloga a como se hara con z.

Cuando llega a encontrarse una diferencia significativa, ser conveniente obtener el intervalo
de confianza para estimar la magnitud de la verdadera diferencia. Esto se hace obteniendo el
intervalo de confianza respectivo:

L (0 -0 ) t
1 2 ",gl EE(0 1-0 2)

donde t es el valor de t en la distribucin terica.


" es cierto nivel de significancia (0.05, 0.01, etc.).
gl son los grados de libertad (n pares - 1).

7.2. MUESTRAS NO PAREADAS .


Cuando las muestras no son pareadas (se les llama independientes), en las que sus tamaos
pueden ser iguales o distintos entre s, se establece la Ho siguiente: las dos muestras han sido
tomadas de poblaciones distribuidas normalmente, cuyas 1 y 2 son en realidad iguales y
cuyas varianzas tambin son iguales:

1 = 2
1 - 2 = 0
F 21 = F 22

Esto quiere decir que se puede hablar de una sola varianza verdadera. Entonces s21 y s22 son
estimaciones separadas de una misma varianza F 2 resultara mejor, particularmente si se trata
de muestras pequeas, obtener una sola estimacin, la cual se puede llamar varianza
ponderada:
93

o ms comnmente:

Con este valor de la varianza ponderada se puede calcular el error estndar de la diferencia
de las medias:

o ms comnmente:

Finalmente, se obtiene el valor de t:

En caso de que se haya encontrado una diferencia significativa, se puede obtener el intervalo
de confianza para estimar la verdadera diferencia de las medias:

(0 1-0 2) t",gl EE(0 1-0 2)

donde t es el valor de t en la distribucin terica.


" es cierto nivel de significancia.
gl son los grados de libertad (en este caso [n1 + n2 - 2]; vase el ejemplo 7.2).
94

Ejemplo 7.1: Contraste de Hiptesis para Dos Medias de Muestras Pequeas Pareadas.

INFORMACIN

En un estudio para evaluar la eficacia de dos drogas en el tratamiento de la angina de pecho,


12 pacientes fueron estudiados. Durante un perodo se les administr nifedipina (20 mg cuatro
veces al da) y posteriormente propanolol (80 mg cuatro veces al da). A travs de electrocar-
diografa ambulatoria, se detectaron los episodios de aplanamiento del segmento S-T,
indicativo de episodios de angina de pecho.

Los resultados son los siguientes:

Paciente Nifedipina Propanolol


1 26 6.5
2 3.5 1
3 0 0
4 8 0
5 0 0.5
6 0 0
7 2.5 0.5
8 3.5 0
9 4 0
10 1 4.5
11 0.5 0.5
12 0 0

Existe evidencia de que los tratamientos difieren significativamente en la prevencin de


episodios de angina de pecho?

PROCEDIMIENTO

1. Obtenga los datos bsicos:


0 1 = 4.08 episodios
0 2 = 1.12 episodios
s1 = 7.48
s2 = 2.08
n = 12 pacientes

2. Obtenga la desviacin estndar de las diferencias:


95

Esto se logra simplemente restando los valores de la segunda columna de los datos a los de
la primera, y obteniendo la desviacin estndar de estas diferencias por los procedimientos
comunes:

PACIENTE NIFEDIPINA PROPANOLOL DIFERENCIA


1 26 6.5 19.5
2 3.5 1 2.5
3 0 0 0
4 8 0 8
5 0 0.5 -0.5
6 0 0 0
7 2.5 0.5 2
8 3.5 0 3.5
9 4 0 4
10 1 4.5 -3.5
11 0.5 0.5 0
12 0 0 0

En este caso: sd es igual a 5.96

3. Obtenga el error estndar para la diferencia de las medias:

EE(0 1-0 2) = sd / /n

= 5.96 / /12

= 5.96 / 3.46

= 1.72

4. Obtenga el valor de t para la diferencia de las medias:

t = [(0 1-0 2) - 0] / (sd//n)

= (4.08 - 1.12) / 1.72

= 1.72

5. Compare el valor de t observada (1.72) con el valor de t11,0.05 en la tabla 3 (es decir, el valor
de t en la distribucin terica con 11 grados de libertad, al nivel de significancia del 5%), el
cual es igual a 2.20.
96

INTERPRETACIN

Dado que el valor de t observada es menor que el de la distribucin terica, no se ha


encontrado evidencia de que los medicamentos difieran entre s por lo que se refiere a la
prevencin de episodios de angina de pecho. Por este motivo, no se hace necesario buscar
el intervalo de confianza para la verdadera diferencia.
97

Ejemplo 7.2: Contraste de Hiptesis para Dos Medias de Muestras No Pareadas.

INFORMACIN

En un estudio se midi la dosis diaria descargada (g) cuando se implantaban 2 o 3 grnulos


biodegradables de noretindrona (NET), pues ello es importante para correlacionarlo con la
eficacia anticonceptiva.

En un grupo de 8 mujeres a quienes se les implantaron 2 grnulos, la liberacin media diaria


de NET fue de 111 g, con una desviacin estndar de 20 g; en otro grupo de 12 mujeres
a quienes se les implantaron 3 grnulos, la liberacin media diaria fue de 150 g y la
desviacin estndar de 7 g. Sugieren estos datos que la descarga media diaria difiere entre
los dos grupos de mujeres?

PROCEDIMIENTO

1. Obtenga los datos bsicos:


Grupo A (2 grnulos) Grupo B (3 grnulos)
n1 = 8 mujeres n2 = 12 mujeres
0 1 = 111 g 0 2 = 150 g
s1 = 20 g s2 = 7 g
2
s1 = 400 s22 = 49

2. Obtenga la varianza ponderada:

s2p = [(n1-1) s211 + (n2-1)s22] / (n1+n2-2)

= [8*400 + 12*49] / 18

= 210.44

por lo que la desviacin estndar ponderada es

sp = 14.51 g

3. Obtenga el error estndar para la diferencia de las medias:

EE(0 1-0 2) = sp /[1/n1 + 1/n2]


98

= 14.51 * /[1/8 + 1/12]

= 6.6229

4. Obtenga el Valor de t para la Diferencia de las Medias

t = (0 1-0 2) / EE(0 1-0 2)

= (111-150) / 6.6229

= -5.889

5. Compare el valor de la t observada (-5.889) con el valor de t18,0.001 en la tabla 3 (es decir,
el valor de t en la distribucin terica con 18 grados de libertad, al nivel de significancia del
0.1%), el cual es igual a 3.922.

INTERPRETACIN

Dado que el valor de t observada es muy grande, se puede concluir que existe evidencia de
que la liberacin media diaria de NET difiere significativamente entre los dos grupos de
mujeres (p < 0.001).

6. Obtenga el Intervalo de confianza del 95 por ciento para la verdadera diferencia:

(0 1-0 2)
99

CAPTULO 8: PRUEBA DE P2 (JI AL CUADRADO)

En las pruebas de contraste de hiptesis de la distribucin t de Student con muestras


pequeas, los supuestos bsicos consisten en que las variables estudiadas pertenecen a
poblaciones cuyos valores se distribuyen normalmente y en las que sus varianzas son iguales.
En otros casos, tal vez se necesite comparar dos proporciones, pero no se cumplen los
requisitos necesarios para aplicar la aproximacin de la distribucin binomial a la normal (n
grande y p no muy alejada de 0.5; vase el captulo 3). Debido a que se establecen tales
condiciones, las anteriores se conocen como pruebas paramtricas. Sin embargo, no siempre
se tiene la informacin necesaria para sostener tales afirmaciones, o bien se sabe que en
realidad no se cumple con ellas.

En tales situaciones, es conveniente recurrir a otro tipo de pruebas que no requieren de estos
supuestos. Estas son las que se conocen como pruebas no paramtricas entre las cuales tal vez
la ms utilizada sea la de P (Ji al cuadrado).

La caracterstica de esta prueba es que se utiliza para frecuencias absolutas. Generalmente se


aplica a variables cualitativas o a variables discontinuas, pero de igual manera puede utilizarse
con variables continuas haciendo las conversiones necesarias a categoras o a intervalos.

La prueba de P se utiliza con distintos propsitos:


a) Para comprobar si una distribucin difiere de otra que es conocida de antemano.
b) Para determinar si las respuestas de dos o ms grupos difieren frente a un tratamiento.
Es decir, se pretende ver si las variables son independientes entre s (contraste de
independencia).
c) Para indagar si una distribucin observada sigue una cierta distribucin. Esta es lo que
se conoce como la bondad del ajuste.

Como se puede ver, el sentido general de la prueba es comparar dos frecuencias, comnmen-
te, una observada con una esperada.

El clculo e interpretacin en todos los casos son iguales, en lo nico que difieren es en la
manera de obtener las frecuencias esperadas, as, las frecuencias esperadas en el primer caso,
estn dadas por una distribucin, terica o emprica, que se conoce previamente. En el
segundo caso se podrn comparar las frecuencias de los distintos grupos. Lo ms comn, sin
embargo, es que se recurra al tercer caso, en donde se ignora la distribucin de frecuencias
esperadas y debe recurrirse a un procedimiento, ya establecido, para obtenerlas.

Una caracterstica del anlisis con P consiste en que es posible comparar dos o ms
proporciones (an cuando lo que se utilice sean las frecuencias absolutas, el efecto es el
100

mismo), lo que representa una gran ventaja sobre el anlisis con la aproximacin a la
distribucin normal, en donde slo se pueden comparar dos proporciones.

La Ho en este caso establece que las diferencias que se encuentran entre las frecuencias
observadas y las esperadas se deben al error de muestreo.

La manera de llevar a cabo el anlisis consiste en organizar los datos en una tabla de
contingencia (en el sentido de eventualidad; este tipo de tablas son aquellas cuyos subtotales
de las filas suman exactamente lo mismo que los subtotales de las columnas), en las cuales se
ordenan las observaciones de acuerdo a las categoras de dos variables. Las tablas de
contingencia ms sencillas son aquellas que tienen dos filas y dos columnas:

Variable 1
categora 1 categora 2 Total
categora 1 a b a+b
Variable 2
categora 2 c d c+d
Gran Total =
Total a+c b+d
a+b+c+d

Una vez que se ordenan las observaciones, se debe obtener las frecuencias esperadas. En
general, las frecuencias esperadas para cada casilla se obtienen de la siguiente manera:

E = (tf*tc)/gt

donde tf es el total de la fila correspondiente a la casilla


tc es el total de la columna correspondiente a la misma casilla.
gt es el gran total, es decir, la suma de todos los subtotales de las filas (o de las columnas).

Por ejemplo, la frecuencia esperada para la casilla "a" (Ea) es:

Ea = ((a+b) * (a+c)) / (a+b+c+d)

Este procedimiento se repite para cada casilla. El sentido de este procedimiento consiste en
lo siguiente: la relacin (a+b)/gt, por ejemplo, nos seala la probabilidad, en una serie de
observaciones, de pertenecer a la categora 1 de la variable 2, independientemente de los
efectos de la variable 1. La relacin (a+c)/gt es la probabilidad, en la misma serie de
observaciones, de pertenecer a la categora 1 de la variable 1, independientemente de los
efectos de la variable 2. Esto es, se han obtenido las probabilidades de dos sucesos
independientes entre s. Si se multiplican estas dos probabilidades, entonces se obtendr la
probabilidad de que se d el suceso de la casilla "a" si los efectos de las variables 1 y 2 fuesen
101

independientes y, si a su vez se multiplica esta probabilidad por el gran total, se obtiene la


frecuencia que se esperara en la casilla "a" en el caso de que los efectos de ambas variables
fueran independientes entre s.

La frmula general para el contraste de hiptesis es:

L
donde O son las frecuencias observadas.
E son las frecuencias esperadas.

Ntese que:

Las diferencias entre las frecuencias observadas y las esperadas en cada casilla se elevan
al cuadrado, (O-E)2, de ah que el nombre de la prueba sea P 2, pues de otra manera, E(O-
E)= 0.
Entre menores sean las diferencias (entre ms parecidas sean las frecuencias observadas
respecto a las esperadas) menor es el valor de P 2, lo que implicara que las variables no
estn asociadas (hiptesis nula), y viceversa.

Los valores crticos con los que se compara el resultado dependern de los grados de libertad:

gl = (nmero de columnas - 1)(nmero de filas - 1)

por lo que para tablas de contingencia de 2*2 los grados de libertad sern siempre 1. Para
obtener los valores correspondientes de la distribucin terica de P, se utiliza la tabla 4 del
Apndice.

Si la diferencia entre las frecuencias observadas y las esperadas es grande, entonces P


tambin ser grande, lo cual sealar una diferencia significativa, si P = 0, entonces la
distribucin observada y la esperada concuerdan exactamente.

El anlisis no debe incluir casillas con frecuencias esperadas menores que 3 (algunos autores
sugieren el valor de 5 como mnimo; este es el criterio que se toma en SPSS).

Como P es una variable continua, al momento de usar esta distribucin para variables
discontinuas o cualitativas es conveniente hacer la correccin por continuidad necesaria
(correccin de Yates):

L
102

donde |O-E| es el valor absoluto de la diferencia, es decir, el valor numrico independiente


del signo (vase el ejemplo 8.1).
103

Ejemplo 8.1: Obtencin de Ji al Cuadrado.

INFORMACIN

En un estudio realizado en una comunidad rural, a un grupo de nios que tenan coproparasi-
toscpico (CPS) positivo para Ascaris se le dividi en dos: uno sujeto a tratamiento trimestral
con levamisol durante un ao, y el otro con placebo.

Al final se vi que de 22 nios bajo tratamiento, 15 permanecieron con CPS negativo, y que
de los 32 con placebo 20 resultaron con CPS positivo para Ascaris.

Realice una prueba de P para determinar si los nios con tratamiento evolucionaron mejor
que los nios con placebo.

PROCEDIMIENTO

1. Identifique la informacin bsica:


Total de nios bajo tratamiento: 22
Nios bajo tratamiento que al final resultaron negativos: 15
Nios bajo tratamiento que al final resultaron positivos: 7
Total de nios con placebo: 32
Nios con placebo que al final resultaron negativos: 12
Nios con placebo que al final resultaron positivos: 20
Gran total: 54

2. Construya el cuadro de contingencia:

Distribucin de Nios
con CPS Inicialmente
Positivo de Acuerdo al
Grupo Asignado
Levamisol Placebo Total
Positivo 7 20 27
CPS Final
Negativo 15 12 27
Total 22 32 54
104

3. Establezca la hiptesis nula:


Una manera de plantear la hiptesis nula puede ser: el nmero de nios que al final del
estudio resultaron positivos para Ascaris, en ambos grupos, en realidad no difiere respecto al
nmero que se podra esperar si el tratamiento y el placebo tuvieran el mismo efecto, toda
diferencia observada se debe al error de muestreo.

4. Obtenga las frecuencias esperadas (E) para cada casilla:


E = (total de la fila * total de la columna) / gran total

Distribucin de Nios
con CPS Inicialmente
Positivo de Acuerdo al
Grupo Asignado
Levamisol Placebo Total
Positivo a b 27
CPS Final
Negativo c d 27
Total 22 32 54

a) Ntese que los subtotales de las filas y de las columnas, y el gran total, son iguales a los
observados.
b) Casilla a: (27 * 22) / 54 = 594 / 54 = 11
c) Casilla b: (27 * 32) / 54 = 864 / 54 = 16 (o simplemente, ya que se conocen los valores
de la casilla "a" y del subtotal de la fila: 27 - 11 = 16)
d) Casilla c: (22 * 27) / 54 = 594 / 54 = 11 ( o simplemente, 22 - 11 = 11)
e) Casilla d: (32 * 27) / 54 = 864 / 54 = 16

5. Obtenga el valor de P:

P = E(O-E)2/E

= (7-11)/11 + (15-11)/11 + (20-16)/16 + (12-16)/16

= 16/11 + 16/11 + 16/16 + 16/16

= 1.45 + 1.45 + 1+1

= 4.9

6. Compare el valor obtenido con el de la distribucin terica:


105

En la tabla 4 del apndice, busque por ejemplo el valor de P1,0.05, es decir, con un grado de
libertad, pues se trata de una tabla de contingencia de 2*2, al nivel de significancia del 5 por
ciento. Este valor es igual a 3.841.

INTERPRETACIN

Como el valor de P observada (4.9) es mayor que el de la distribucin terica, se rechaza la


hiptesis nula al nivel del 5 por ciento de significancia, y se puede afirmar que existe evidencia
de que el grupo de nios sujeto a tratamiento evolucion distinto al grupo sujeto a placebo.
De hecho, se puede observar que el porcentaje de nios sujetos a tratamiento y que al final
result negativo es mayor que el correspondiente en el grupo con placebo, p < 0.05.

7. Qu sucede al nivel de significancia del 1 por ciento?

8. Realice el anlisis con la correccin de yates.

9. Cul es su conclusin final?


106

CAPTULO 9: REGRESIN LINEAL Y CORRELACIN

9.1. INTRODUCCIN .
Un frecuente inters durante las investigaciones consiste en tratar de determinar si dos sucesos
estn relacionados entre s, de tal manera que al conocer lo que sucede con el primero, se
pueda prever o predecir lo que acontezca con el segundo.

Lo anterior se identifica generalmente con el estudio de la causalidad, pero los procedimientos


estadsticos, por su propia naturaleza, no pueden dar respuesta a esta cuestin, aunque son
tiles para aproximarse a ella. La afirmacin de la existencia de una relacin causa - efecto
entre dos sucesos requiere de un conocimiento profundo de los mecanismos y de los procesos
que intervienen, y de una base terica firme que los explique y sistematice. De hecho, en las
ciencias mdicas el establecimiento de las relaciones causa - efecto, por ejemplo el atribuir a
un factor el desarrollo o aparicin de una enfermedad, no siempre requiere de algn modelo
matemtico, ms bien necesita del conocimiento detallado de la fisiopatologa. La estadstica
contribuye dando a conocer el grado y el sentido de la asociacin entre sucesos, pero no
puede decir mucho acerca de su validez o de su veracidad.

Tal vez el procedimiento ms utilizado para indagar la asociacin entre dos sucesos
(identificados por variables) es el modelo de regresin lineal. Este modelo de anlisis, en su
formulacin ms simple, pretende determinar hasta qu punto los cambios en el valor de una
variable (llamada independiente) influyen en los cambios observados en los valores de la otra
variable (llamada dependiente). En ocasiones se entiende que la primera es la causa de los
cambios en la segunda, reconocida como el efecto, pero esta es una interpretacin errnea
en tanto el anlisis estadstico no se acompae de un anlisis terico que soporte la existencia
de tal relacin.

El modelo de regresin lineal fue desarrollado en el siglo XIX por F. Galton, fundador de la
eugenesia, a partir de sus observaciones sobre un fenmeno hereditario: la relacin de
estaturas entre padres e hijos. Pudo ver que aunque los padres de estatura alta tendan a tener
hijos altos y los de estatura baja hijos bajos, la distribucin de estaturas de una generacin a
otra no cambiaba. Galton explic este fenmeno por la tendencia de la estatura promedio a
desplazarse hacia la media poblacional, es decir, a sufrir una regresin. As, los padres con
estatura promedio alta tenan hijos con estatura promedio menor que ellos, y los padres con
estatura promedio baja tenan hijos con estatura promedio mayor que ellos.

Cuando solamente se toma el valor de una variable independiente para explicar los cambios
en la variable dependiente, se habla de regresin lineal simple, y cuando se utilizan dos o ms
variables independientes, se habla de regresin lineal mltiple. Ambos modelos pertenecen a
un sistema ms amplio de anlisis matemtico que se conoce como curvas de ajuste o de
aproximacin, el cual incluye relaciones no lineales y que no sern tratadas aqu.
107

Con el trmino "lineal" nos estamos refiriendo a aquellas relaciones cuyo ajuste se hace por
medio de una lnea recta, la cual tiene las siguientes caractersticas:

Es el tipo ms sencillo de linea de aproximacin.


La relacin funcional ms simple entre dos variables es la igualdad: y = x; es decir, si x = 0
entonces y = 0, si x = 1 entonces y = 1, etctera (esto se conoce como recta a travs del
origen puesto que cruza a ste en un ngulo de 45 grados).
Las propiedades comunes de todas las ecuaciones de lineas rectas son: contienen valores
solamente de x y de y; no hay productos ni cocientes de x ni de y; no hay potencias
mayores de x ni de y (x = x1).
La ecuacin de una linea recta es y = a+bx.
Dados dos puntos (dos coordenadas x, y) se pueden encontrar los valores de a y de b; o
bien, conocidas a y b, se puede trazar la lnea.
El cambio en los valores de y (y2-y1) est relacionado con el cambio en los valores de x
(x2-x1) de la siguiente manera:
(y2-y1) = b(x2-x1)

por lo que

De aqu se deduce que b representa la magnitud del cambio en y por cada unidad de
cambio en x. Esto es, los cambios son proporcionales; por ejemplo, si b = 2, entonces y
se modifica el doble de lo que se modifica x. De aqu, para cualquier valor conocido de
x y de y se puede obtener a = y-bx.
Las constantes (dentro de la ecuacin) a y b son llamadas respectivamente "interseccin"
(es el valor que toma y cuando x = 0, es decir, el punto del eje de las ordenadas en
donde la lnea recta cruza) y "pendiente" (la inclinacin de la lnea, entre ms alejado est
su valor de cero, ya sea positivo o negativo, mayor ser su inclinacin). Cuando b=0
tenemos el caso en que para cualquier valor de x, y siempre tendr el mismo valor
(constante).

9.2. REGRESIN LINEAL .


Comnmente en las investigaciones se mide ms de una variable en el mismo caso, ya que
se encuentra o se sospecha que existe alguna relacin entre ellas. El objetivo es saber cmo
la respuesta (variable dependiente) cambia con el estmulo (variable independiente).

Si la variable independiente es x y la dependiente es y, entonces, como para cada caso existe


un par de observaciones, se tiene en total n coordenadas:
(x1, y1)
(x2, y2)
.
.
.
(xn, yn)
108

El primer paso para tratar de ver si existe relacin entre las dos variables es construir una
grfica de correlacin (de dispersin o de nube de puntos) y si los puntos (definidos por los
valores de las coordenadas, es decir, por cada par de valores x, y) caen cercanos a una lnea
recta, se puede asumir que entre las variables existe una relacin lineal (vase la grfica 9.1)
y se puede trazar a ojo una lnea que siga la tendencia general de las coordenadas (mtodo
libre de ajuste). Aqu es cuando la representacin grfica se vuelve indispensable para el
anlisis estadstico. Sin embargo, esta forma de llevar a cabo el anlisis es muy subjetiva, lo
cual significa que diferentes observadores podran obtener diferentes lneas de ajuste, en
particular por el hecho de que en la realidad las coordenadas prcticamente nunca coinciden
todas sobre una sola lnea.

Grfica 9.1.

La regresin lineal es un mtodo objetivo para ajustar esta lnea recta a travs de un conjunto
de puntos. Se le denomina objetivo porque cualquier persona que realice el anlisis siguiendo
el procedimiento establecido, y utilizando los mismos datos, llegar a idnticos resultados.

La lnea recta resultante del anlisis de regresin se conoce como lnea de regresin o de ajuste
ptimo. Esta lnea es una recta respecto de la cual la suma de los cuadrados de las diferencias
entre ella y las coordenadas observadas es mnima, por lo que se le conoce tambin como
recta de los mnimos cuadrados. Es decir, cuando

d12 +d22 + ... +dn2

es mnima con respecto a la lnea de regresin, siendo las d2i los valores de las diferencias al
cuadrado entre las coordenadas observadas y la lnea (vase la grfica 9.2).
109

Grfica 9.2.

El trazado de la lnea recta puede lograrse a travs de la siguiente ecuacin:

donde " y $ son las dos constantes de la ecuacin (ver arriba);


x es la variable independiente, continua, que se ubica en el eje de
las abscisas;
y es la variable dependiente, continua, que se ubica en el eje de
las ordenadas.

De la misma manera que arriba se refiri, se puede ver que cuando x = 0, entonces y = ",
lo que quiere decir que " es el punto en que la lnea cruza el eje de las y, por lo que se le llama
interseccin. Por supuesto, si x = y, entonces " = 0. Por su parte, $ representa la magnitud
del cambio promedio en el valor de y por cada unidad de x. Entre ms alejado de cero est
el valor de $ (positivo o negativo) mayor ser la inclinacin de la lnea de regresin; mientras
que entre ms cercano sea a cero, la lnea de regresin se acercar ms a la horizontal. Por
este motivo, a $ se le conoce como la pendiente. Cuando, para cualquier valor de x, y toma
siempre el mismo valor, se dice que es una relacin constante, y $ ser igual a cero.

En una muestra, los valores de " y de $, que son los valores poblacionales, permanecen por
lo general desconocidos, por lo que se estiman con los valores muestrales a y b. Para calcular
estas estimaciones se tiene que (las siguientes ecuaciones se han obtenido por clculo
diferencial y no de la manera simple relatada arriba para la lnea recta):
110

L
y que

o lo que es lo mismo:

donde yG es la media de los valores de la variable y;


xG es la media de los valores de la variable x;
E(x-xG )2 es simplemente el denominador de la varianza de la variable x. Tambin se
representa como Sxx;
E(x-xG )(y-y
G ) es la varianza conjunta de x y de y; a esto se le conoce como covarianza.
Ntese que, en este caso, las diferencias de x y de y con respecto a sus medias no se
elevan al cuadrado, pues al multiplicarse entre ellas su suma no necesariamente es igual
a cero (podra llegar a serlo, pero ello no impide el anlisis), y adems puede tener un
resultado con signo positivo o negativo. Tambin se representa como Sxy.

Estas ecuaciones son las que permiten obtener la lnea recta en la que la suma de las
distancias, elevadas al cuadrado, de las coordenadas observadas con respecto a la recta es
mnima. Una vez conocidas estas constantes, es posible trazar la recta de ajuste ptimo:
a) Se escogen dos puntos, cada uno con un valor determinado de x (x1 y x2), para los
cuales se obtienen los valores correspondientes de y (y1 y y2).
b) Se marcan las coordenadas de los puntos anteriores en la grfica y se unen.
G,
c) Se verifica que la lnea trazada cruce la coordenada correspondiente a las medias (x
yG ).

En dcadas anteriores, llevar a cabo un anlisis de regresin lineal poda constituir toda una
hazaa, particularmente si el nmero de observaciones era grande. En la actualidad, con los
recursos electrnicos disponibles, todos estos procedimientos se realizan de manera fcil y
rpida.

Con este procedimiento, adems se puede "predecir" el valor que tomar y para cualquier
valor de x:

yp = a + bx

donde yp es la y predicha por el modelo.


111

Sin embargo, hay que tomar en cuenta que se trabaja con una muestra, y ser necesario,
como siempre, estimar la magnitud del error de muestreo, pues tal y predicha, por caer sobre
la lnea, es nicamente el valor medio de todas las y que se podra esperar observar para el
valor de x particular dado en la ecuacin:

donde EEy,x se conoce como el error estndar de la regresin de y sobre x;


sy,x es la desviacin estndar de la regresin de y sobre x: .

Se puede advertir de la ecuacin del error estndar que ste vara para cada valor de x,
hacindose mayor conforme x se aleja de su media y viceversa. Con dicho error de muestreo
se puede calcular un intervalo de confianza (95 por ciento, 99 por ciento o cualquier otro que
se desee) para estimar los valores de y que se podran observar para un determinado valor de
x. Estos intervalos se calculan utilizando la distribucin t de Student:

Como se observa en la grfica anterior, al calcular los intervalos a partir de todos los valores
de x, lo que se obtiene es una franja de confianza.

Por otro lado, siendo la constante b de gran importancia para el modelo obtenido (no en vano
se le conoce tambin como coeficiente de regresin), vale la pena estimar cul puede ser el
valor de este parmetro en la poblacin ($), pues b es un valor obtenido a partir de una
muestra. Interesa, en particular, estimar si $ = 0 (hiptesis nula) pues, de ser as, no
podramos afirmar que existe una asociacin entre las dos variables que estamos analizando.
Para ello, debemos obtener el error estndar de b:
112

que es en todo similar a EEy,x excepto por la unidad dentro de la raz cuadrada. Con ello se
puede obtener tambin una franja de confianza para la verdadera lnea de regresin a
cualquier nivel de confianza (95%, 99%, o algn otro que se desee). De igual manera, se
utiliza la distribucin t de Student:

Grfica 9.4.

Con este mismo error estndar se puede hacer el contraste de hiptesis para determinar si b
es significativamente diferente de cero:

donde b es el valor estimado de $ a partir de la muestra;


t es el valor en la distribucin t de Student al nivel " de significancia (0.5, 0.01 o el que
se desee) y con gl grados de libertad (n-2).

As, cuando el intervalo incluye el valor cero, no se puede rechazar la hiptesis nula de que
$ = 0, es decir, no se ha encontrado asociacin lineal entre las variables, aunque siempre
debe advertirse que puede haber otro tipo de asociacin, la cual se puede sospechar al
observar la grfica de dispersin (de nuevo, la representacin grfica inicial es indispensable
para este anlisis). Si el intervalo no incluye el valor cero, entonces se rechaza la hiptesis nula
y se puede afirmar que la pendiente es significativa (que y cambia significativamente conforme
cambia x).

Dado que para calcular estos errores y sus respectivas franjas de confianza se requiere de
clculos muy tediosos (hay que repetir los clculos para cada valor de x que se desee), se
113

asume que el estudiante tendr acceso a programas de cmputo estadsticos que harn ms
feliz su vida.

9.3. CORRELACIN .
Pero an cuando b sea significativa y de gran magnitud, queda por medir la fuerza de la
asociacin, es decir, el grado de relacin entre las dos variables estudiadas.

Si la variable dependiente tiende a incrementar su valor conforme lo hace la independiente


(si el coeficiente de regresin b es positivo), entonces se habla de una correlacin positiva (lo
que en el lenguaje comn se conoce como "directamente proporcional"):

Grfica 9.5.

Si, adems de lo anterior, todas las coordenadas llegaran a corresponder a la ecuacin (si
todas cayeran sobre la lnea de regresin) se dice que existe una correlacin perfecta positiva:

Grfica 9.6.
114

Por otro lado, si el valor de la variable dependiente tiende a disminuir cuando el de la


independiente aumenta, se tratar de una correlacin negativa (en el lenguaje comn se le
conoce como "inversamente proporcional"):

Grfica 9.7.

De la misma manera que anteriormente, si todas las coordenadas caen sobre la lnea recta,
se habla de una correlacin perfecta negativa:

Grfica 9.8.

Si el cambio en y cuando cambia x no muestra ninguna tendencia, entonces podemos decir


que las variables no estn correlacionadas:
115

Grfica 9.9.

Pueden existir, sin embargo, relaciones no lineales:

Grfica 9.10.

Al hacer la representacin grfica, habr ocasiones en donde las coordenadas se dispersen en


mayor grado alrededor de la linea de regresin, o en donde se acerquen mucho a ella. En el
primer caso, diremos que la fuerza de asociacin es menor que en el segundo:
116

Grfica 9.11.

La manera de medir esta fuerza de asociacin es por medio del coeficiente de correlacin r
de Pearson (no confundir con el coeficiente de regresin, b):

cuyas propiedades son:


a) el signo de r es el mismo signo que el de la pendiente (vase que el numerador es el
mismo);
b) r slo toma valores entre -1 y +1 y su valor no tiene ninguna magnitud en trminos
de las unidades de medida de x o de y;
c) si r = 1 o r = -1, entonces se habla de una correlacin perfecta;
d) si r es igual o muy cercana a cero se puede decir que no hay correlacin, pero se debe
estar pendiente siempre de la posibilidad de una correlacin no lineal;
e) una correlacin alta (cercana a 1) no necesariamente indica una relacin de
dependencia entre las variables, pues puede haber correlaciones falsas.

Debe recordarse que la correlacin es asociacin estadstica, no necesariamente relacin


causal.

El coeficiente r de Pearson es tambin un estimador del verdadero coeficiente de correlacin


de la poblacin (D), por lo que se le somete a pruebas de hiptesis, en las que la hiptesis nula
es que D = 0. Para ello, se utiliza tambin la distribucin t de Student:
117

El resultado se contrasta con la distribucin t al nivel de significancia deseado y con n-2 grados
de libertad.

Finalmente, es comn recurrir a otro coeficiente que en ocasiones sirve como resumen de todo
el anlisis. Este se llama coeficiente de determinacin y es simplemente r2 el cual se interpreta
como la proporcin o porcentaje en el que la variacin de la variable dependiente puede ser
atribuido a la variacin en la variable independiente. Como proporcin slo toma valores
entre 0 y 1 (entre 0 y 100 por ciento). Es decir, entre ms alto es el valor de r2 podemos
afirmar que la relacin entre una y otra variables es ms estrecha (ejemplo 9.1).
118

Ejemplo 9.1: Regresin Lineal y Correlacin.

INFORMACIN

En un estudio realizado por el Instituto para el Desarrollo de los Recursos (EUA), se midieron
entre otras cosas el porcentaje de nios con diarrea tratados por medio de la terapia de
rehidratacin oral (TRO) y los niveles de mortalidad infantil (tasa por 1000 nacidos vivos: TMI)
en diferentes pases. Esto form parte del Programa de Encuestas Demogrficas y de Salud.
Algunos resultados se presentan enseguida:

Pas TRO (%)1 TMI (x1000)2


Burundi 30 75
Liberia 7 144
Mali 2 108
Senegal 2 86
Marruecos 15 73
Sri Lanka 29 25
Tailandia 37 35
Tnez 20 50
Brasil 9 76
Colombia 42 33
Rep. Dominicana 38 68
El Salvador 26 71
Per 4 76
Trinidad y Tobago 53 26
1
: por ciento de nios con diarrea tratados con terapia de rehidratacin oral (TRO).
2
: tasa de mortalidad infantil (TMI) por 1000 nacidos vivos.

Utilizando el anlisis de regresin lineal, determine si existe una relacin entre el porcentaje
de nios con diarrea tratados con TRO y el nivel de la tasa de mortalidad infantil.

Por supuesto, siempre ser mejor hacer este tipo de anlisis en con computadora o, al menos,
con una calculadora cientfica con funciones para regresin lineal. En este ejemplo slo se
ilustran los pasos generales.
119

PROCEDIMIENTO

1. Distinga la variable dependiente de la independiente:


a) variable independiente (x): porcentaje de nios con diarrea tratados con TRO.
b) variable dependiente (y): tasa de mortalidad infantil por 1000 nacidos vivos.

2. Construya la grfica de dispersin:


Vea si los puntos presentan alguna tendencia. Con fines de comparacin posterior, trace una
lnea a ojo.

3. Obtenga los datos bsicos:


xG = 22.4286
yG = 67.5714
E(x-xG )2 = 3539.4286
E(x-xG )(y-y
G ) = -5274.4286
E(y-yG )2 = 14159.4286

4. Obtenga los valores de a y de b:


b = -5274.43 / 3539.43 = -1.49
a = 67.57 - (-1.49) 22.43 = 100.99

5. Trace la linea de regresin:


Primero, obtenga los valores predichos de y en dos coordenadas (x1,y1) y (x2,y2) que no se
encuentren muy cercanas entre s y compare esta linea con la que traz a ojo. Por ejemplo:
si x1 = 10 por ciento de ninos con diarrea tratados con TRO, entonces
y1 = a+bx = 100.99 + (-1.49)(10) = 86.09 (TMI predicha por el modelo para el valor
de x);
y si x2 = 60, entonces
y2 = a+bx = 100.99 + (-1.49)(60) = 11.58

Compruebe que la lnea de regresin trazada cruza por la coordenada (xG ,y


G ).

6. Obtenga el valor del coeficiente de correlacin:


G ) / (E(x-xG )2 E(y-yG )2) = -5274.43 / (3539.43)(14159.43) = -0.7451
r = E(x-xG )(y-y

7. Obtenga el valor del coeficiente de determinacin:


r2 = (-0.7451)2 = 0.5552

INTERPRETACIN
120

a) Si bien el grfico de correlacin no muestra uniformidad total en la tendencia de los puntos,


esto es algo que cabe esperar en todos los casos, ms an cuando son pocas las observacio-
nes, como en este ejemplo. A pesar de todo, la tendencia es clara en el sentido de que
conforme aumenta el porcentaje de nios con diarrea tratados con TRO, disminuye la TMI;
por lo tanto, pareciera ser que el modelo de regresin lineal es aplicable en este caso (en
realidad, haran falta otros anlisis para afirmar esto con mayor certeza, pero estos no se vern
en el manual).

b) El valor de a = 100.99 indica que la TMI en promedio, tendra este nivel si el porcentaje
de nios con diarrea tratados con TRO fuera igual a 0. El valor de b = -1.49 indica que por
cada punto porcentual de aumento en los nios con diarrea tratados con TRO, la TMI se
reducira en promedio en 1.5 defunciones por cada 1000 nacidos vivos.

c) El valor del coeficiente de correlacin r = -0.7451, es alto y negativo, lo que indica una
fuerte asociacin entre las dos variables. Ello no significa, sin embargo, que necesariamente
exista una relacin de causalidad, esta debera establecerse, en todo caso, a travs de la
explicacin de cmo la TRO puede modificar la TMI y hasta qu punto. Adems, otros muchos
factores entran en juego para determinar el nivel de la mortalidad infantil.

d) El coeficiente de determinacin r2 = 0.5551 nos indica que el 55.5 por ciento de la


variacin (de los cambios) en la TMI pueden ser atribuidos a la variacin en el porcentaje de
nios con diarrea tratados con TRO.

También podría gustarte