Está en la página 1de 246

Bioestadstica: Mtodos y

Aplicaciones Cursos
Bioestadstica
ndice
Universidad de Mlaga
1. Conceptos previos

1.2 Introduccin
1.3 Qu es la estadstica?
Bioestadstica: mtodos y aplicaciones
1.5 Elementos. Poblacin.
Caracteres Este curso contiene documentos HTML que utilizan el lenguaje JavaScript que pueden
ser interpretados por Netscape 2 o superior.
1.7 Organizacin de los datos
1.9 Representaciones Grficas
1.11 Problemas Si necesitas material complementario para la asignatura (transparencias de PowerPoint y
Vdeos de las prcticas) lo encontrars aqu
2. Medidas descriptivas

2.1 Introduccin
2.3 Estadsticos de tendencia central
2.5 Estadsticos de posicin
2.7 Medidas de variabilidad o
dispersin
2.9 Asimetra y apuntamiento
2.11 Problemas

3. Variables bidimensionales

3.2 introduccin
3.4 Tablas de doble entrada
3.6 Dependencia funcional e
independencia
3.8 Medias y varianzas marginales y
condicionadas
3.10 Covarianza y coeficiente de
correlacin
3.12 Regresin
3.14 Problemas

4. Clculo de probabilidades y variables


aleatorias

4.2 introduccin
4.4 Experimentos y sucesos
aleatorios
4.6 Operaciones bsicas con
sucesos aleatorios
4.8 Experimentos aleatorios y
probabilidad
4.10 Probabilidad condicionada e
independencia de sucesos
4.12 Ciertos teoremas fundamentales
del clculo de probabilidades
4.14 Tests diagnsticos
4.16 Problemas

5. Variables aleatorias

5.2 Introduccin
5.4 Variables aleatorias discretas
5.6 Variables aleatorias continuas
6. Principales leyes de distribucin de
variables aleatorias

6.2 Introduccin
6.4 Distribuciones discretas
6.6 Reproductividad de familias de v.
a.
6.8 Distribuciones continuas
6.10 Problemas

7. Introduccin a la inferencia

7.2 Introduccin
7.4 Tcnicas de muestreo sobre una
poblacin
7.6 Propiedades deseables de un
estimador

8. Estimacin confidencial

8.2 Introduccin
8.4 Intervalos de confianza para la
distribucin normal
8.6 Intervalos de confianza para
variables dicotmicas
8.8 Problemas

9. Contrastes de hiptesis

9.2 Introduccin
9.4 Contrastes paramtricos en una
poblacin normal
9.6 Contrastes de una proporcin
9.8 Contrastes para la diferencia de
medias apareadas
9.10 Contrastes de dos distribuciones
normales independientes
9.12 Contrastes sobre la diferencia
de proporciones
9.14 Problemas

10. Contrastes basados en el estadstico Ji-


Cuadrado

10.2 Introduccin
10.4 El estadstico y su
distribucin
10.6 Contraste de bondad de ajuste
para distribuciones
10.8 Problemas

11. Anlisis de la varianza

11.2 Introduccin
11.4 ANOVA con un factor
11.6 ANOVA de varios factores
11.8 Consideraciones sobre las
hiptesis subyacentes en el modelo
factorial
12. Contrastes no paramtricos

12.2 Introduccin
12.4 Aleatoriedad de una muestra:
Test de rachas
12.6 Normalidad de una muestra:
Test de D'Agostino
12.8 Equidistribucin de dos
poblaciones
12.10 Contraste de Wilcoxon para
muestras apareadas
12.12 Contraste de Kruskal-Wallis
12.14 Problemas

Bibliografa
About this document ...

Este texto es la versin electrnica del


manual de la Universidad de Mlaga:
Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina.
Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: Bioestadstica: Mtodos y Aplicaciones
Siguiente: 1.2 Introduccin
Previo: Bioestadstica: Mtodos y Aplicaciones

1. Conceptos previos

1.2 Introduccin
1.3 Qu es la estadstica?
1.5 Elementos. Poblacin. Caracteres
1.5.0.1 Ejemplo

1.7 Organizacin de los datos


1.7.2 Variables estadsticas

1.7.4 Tablas estadsticas

1.7.4.1 Ejemplo

1.7.4.2 Eleccin de las clases

1.7.4.3 Eleccin de intervalos para variables continuas

1.7.4.4 Observacin

1.7.4.5 Ejemplo

1.9 Representaciones Grficas


1.9.2 Grficos para variables cualitativas

1.9.4 Grficos para variables cuantitativas

1.9.4.1 Grficos para variables discretas

1.9.4.2 Ejemplo

1.9.4.3 Ejemplo

1.9.4.4 Grficos para variables continuas

1.9.4.5 Ejemplo

1.11 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 1. Conceptos previos
Siguiente: 1.3 Qu es la estadstica?
Previo: 1. Conceptos previos

1.2 Introduccin
Iniciamos este captulo con la definicin de algunos conceptos elementales y bsicos, y sin embargo
pilares, para una comprensin intuitiva y real de lo que es la Bioestadstica. Pretendemos introducir al
estudiante en los primeros pasos sobre el uso y manejos de datos numricos: distinguir y clasificar las
caractersticas en estudio, ensearle a organizar y tabular las medidas obtenidas mediante la
construccin de tablas de frecuencia y por ltimo los mtodos para elaborar una imagen que sea
capaz de mostrar grficamente unos resultados.

El aserto ``una imagen vale ms que mil palabras'' se puede aplicar al mbito de la estadstica
descriptiva diciendo que ``un grfico bien elaborado vale ms que mil tablas de frecuencias''. Cada
vez es ms habitual el uso de grficos o imgenes para representar la informacin obtenida. No
obstante, debemos ser prudente al confeccionar o interpretar grficos, puesto que unas misma
informacin se puede representar de formas muy diversas, y no todas ellas son pertinentes, correctas
o vlidas. Nuestro objetivo, en este captulo, consiste en establecer los criterios y normas mnimas
que deben verificarse para construir y presentar adecuadamente los grficos en el mbito de la
estadstica descriptiva.

Nodo Raz: 1. Conceptos previos


Siguiente: 1.3 Qu es la estadstica?
Previo: 1. Conceptos previos

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 1. Conceptos previos
Siguiente: 1.5 Elementos. Poblacin. Caracteres
Previo: 1.2 Introduccin

1.3 Qu es la estadstica?
Cuando coloquialmente se habla de estadstica, se suele pensar en una relacin de datos numricos
presentada de forma ordenada y sistemtica. Esta idea es la consecuencia del concepto popular que
existe sobre el trmino y que cada vez est ms extendido debido a la influencia de nuestro entorno,
ya que hoy da es casi imposible que cualquier medio de difusin, peridico, radio, televisin, etc, no
nos aborde diariamente con cualquier tipo de informacin estadstica sobre accidentes de trfico,
ndices de crecimiento de poblacin, turismo, tendencias polticas, etc.

Slo cuando nos adentramos en un mundo ms especfico como es el campo de la investigacin de


las Ciencias Sociales: Medicina, Biologa, Psicologa, ... empezamos a percibir que la Estadstica no
slo es algo ms, sino que se convierte en la nica herramienta que, hoy por hoy, permite dar luz y
obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y
relaciones, por su variabilidad intrnseca, no puedan ser abordadas desde la perspectiva de las leyes
determistas. Podramos, desde un punto de vista ms amplio, definir la estadstica como la ciencia
que estudia cmo debe emplearse la informacin y cmo dar una gua de accin en situaciones
prcticas que entraan incertidumbre.

La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir, hallar
regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa
intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con la finalidad de ayudar
a la toma de decisiones y en su caso formular predicciones.

Podramos por tanto clasificar la Estadstica en descriptiva, cuando los resultados del anlisis no
pretenden ir ms all del conjunto de datos, e inferencial cuando el objetivo del estudio es derivar las
conclusiones obtenidas a un conjunto de datos ms amplio.

Estadstica descriptiva: Describe, analiza y representa un grupo de datos utilizando mtodos


numricos y grficos que resumen y presentan la informacin contenida en ellos.

Estadstica inferencial: Apoyndose en el clculo de probabilidades y a partir de datos muestrales,


efecta estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de
datos.

Nodo Raz: 1. Conceptos previos


Siguiente: 1.5 Elementos. Poblacin. Caracteres
Previo: 1.2 Introduccin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 1. Conceptos previos
Siguiente: 1.7 Organizacin de los datos
Previo: 1.3 Qu es la estadstica?

1.5 Elementos. Poblacin. Caracteres


Establecemos a continuacin algunas definiciones de conceptos bsicos y fundamentales bsicas
como son: elemento, poblacin, muestra, carcteres, variables, etc., a las cuales haremos referencia
continuamente a lo largo del texto

Individuos o elementos: personas u objetos que contienen cierta informacin que se desea estudiar.

Poblacin: conjunto de individuos o elementos que cumplen ciertas propiedades comunes.

Muestra: subconjunto representativo de una poblacin.

Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de una
poblacin.

Estadstico: funcin definida sobre los valores numricos de una muestra.

En relacin al tamao de la poblacin, sta puede ser:

Finita, como es el caso del nmero de personas que llegan al servicio de urgencia de un
hospital en un da;
Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras
y cruces obtenida en el lanzamiento repetido de una moneda al aire.

1.5.0.1 Ejemplo

Consideremos la poblacin formada por todos los estudiantes de la Universidad de Mlaga (finita).
La altura media de todos los estudiantes es el parmetro . El conjunto formado por los alumnos de
la Facultad de Medicina es una muestra de dicha poblacin y la altura media de esta muestra, , es
un estadstico.

Caracteres: propiedades, rasgos o cualidades de los elementos de la poblacin. Estos caracteres


pueden dividirse en cualitativos y cuantitativos.

Modalidades: diferentes situaciones posibles de un carcter. Las modalidades deben ser a la vez
exhaustivas y mutuamente excluyentes --cada elemento posee una y slo una de las modalidades
posibles.

Clases: conjunto de una o ms modalidades en el que se verifica que cada modalidad pertenece a una
y slo una de las clases.

1.5.0.1 Ejemplo

Nodo Raz: 1. Conceptos previos


Siguiente: 1.7 Organizacin de los datos
Previo: 1.3 Qu es la estadstica?

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 1. Conceptos previos
Siguiente: 1.7.2 Variables estadsticas
Previo: 1.5 Elementos. Poblacin. Caracteres

1.7 Organizacin de los datos

1.7.2 Variables estadsticas


1.7.4 Tablas estadsticas
1.7.4.1 Ejemplo

1.7.4.2 Eleccin de las clases

1.7.4.3 Eleccin de intervalos para variables continuas

1.7.4.4 Observacin

1.7.4.5 Ejemplo

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 1. Conceptos previos
Siguiente: 1.9.2 Grficos para variables cualitativas
Previo: 1.7.4 Tablas estadsticas

1.9 Representaciones Grficas


Hemos visto que la tabla estadstica resume los datos que disponemos de una poblacin, de forma que
sta se puede analizar de una manera ms sistemtica y resumida . Para darnos cuenta de un slo
vistazo de las caractersticas de la poblacin resulta an ms esclarecedor el uso de grficos y
diagramas, cuya construccin abordamos en esta seccin.

1.9.2 Grficos para variables cualitativas


1.9.4 Grficos para variables cuantitativas
1.9.4.1 Grficos para variables discretas

1.9.4.2 Ejemplo

1.9.4.3 Ejemplo

1.9.4.4 Grficos para variables continuas

1.9.4.5 Ejemplo

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 1. Conceptos previos
Siguiente: 2. Medidas descriptivas
Previo: 1.9.4 Grficos para variables cuantitativas

1.11 Problemas
Ejercicio 1..1. Clasificar las siguientes variables:

1.
Preferencias polticas (izquierda, derecha o centro).
2.
Marcas de cerveza.
3.
Velocidad en Km/h.
4.
El peso en Kg.
5.
Signo del zodiaco.
6.
Nivel educativo (primario secundario, superior).
7.
Aos de estudios completados.
8.
Tipo de enseanza (privada o pblica).
9.
Nmero de empleados de una empresa.
10.
La temperatura de un enfermo en grados Celsius.
11.
La clase social (baja, media o alta).
12.
La presin de un neumtico en

Ejercicio 1..2. Clasifique las variables que aparecen en el siguiente cuestionario.

1.
Cul es su edad?

2.
Estado civil:
(a)
Soltero
(b)
Casado
(c)
Separado
(d)
Divorciado
(e)
Viudo
3.
Cuanto tiempo emplea para desplazarse a su trabajo?
4.
Tamao de su municipio de residencia:
(a)
Municipio pequeo (menos de 2.000 habitantes)
(b)
Municipio mediano (de 2.000 a 10.000 hab.)
(c)
Municipio grande (de 10.000 a 50.000 hab.)
(d)
Ciudad pequea (de 50.000 a 100.000 hab.)
(e)
Ciudad grande (ms de 100.000 hab.)

5.
Est afiliado a la seguridad social?

Ejercicio 1..3.

En el siguiente conjunto de datos, se proporcionan los pesos (redondeados a libras) de nios nacidos
en cierto intervalo de tiempo:

4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5,


7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.

1.
Construir una distribucin de frecuencia de estos pesos.

2.
Encontrar las frecuencias relativas.
3.
Encontrar las frecuencias acumuladas.
4.
Encontrar las frecuencias relativas acumuladas.
5.
Dibujar un histograma con los datos del apartado a.
6.
Por qu se ha utilizado un histograma para representar estos datos, en lugar de una grfica de
barras?

Nodo Raz: 1. Conceptos previos


Siguiente: 2. Medidas descriptivas
Previo: 1.9.4 Grficos para variables cuantitativas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: Bioestadstica: Mtodos y Aplicaciones
Siguiente: 2.1 Introduccin
Previo: 1.11 Problemas

2. Medidas descriptivas

2.1 Introduccin
2.3 Estadsticos de tendencia central
2.3.2 La media

2.3.2.1 Observacin

2.3.2.2 Proposicin

2.3.2.3 Ejemplo

2.3.2.4 Proposicin (Knig)

2.3.2.5 Proposicin (Linealidad de la media)

2.3.2.6 Proposicin

2.3.2.7 Observacin

2.3.2.8 Clculo abreviado

2.3.2.9 Medias generalizadas

2.3.4 La mediana

2.3.4.1 Observacin

2.3.4.2 Observacin

2.3.4.3 Ejemplo

2.3.4.4 Ejemplo

2.3.6 La moda

2.3.6.1 Observacin

2.3.8 Relacin entre media, mediana y moda

2.3.8.1 Ejemplo

2.5 Estadsticos de posicin


2.5.0.1 Ejemplo

2.5.0.2 Ejemplo

2.5.0.3 Ejemplo

2.5.0.4 Ejemplo

2.7 Medidas de variabilidad o dispersin


2.7.2 Desviacin media, D
m
2.7.4 Varianza y desviacin tpica
2.7.4.1 Ejemplo

2.7.4.2 Proposicin

2.7.4.3 Observacin

2.7.4.4 Proposicin

2.7.4.5 Observacin

2.7.4.6 Mtodo abreviado para el clculo de la varianza

2.7.4.7 Grados de libertad

2.7.4.8 Tipificacin

2.7.6 Coeficiente de variacin

2.7.6.1 Observacin

2.7.6.2 Ejemplo

2.9 Asimetra y apuntamiento


2.9.2 Estadsticos de asimetra

2.9.2.1 Observacin

2.9.2.2 ndice basado en los tres cuartiles (Yule-Bowley)

2.9.2.3 ndice basado en el momento central de tercer orden

2.9.2.4 Ejemplo

2.9.2.5 Observacin

2.9.2.6 Otros ndices de asimetra

2.9.2.7 Ejemplo

2.9.4 Estadsticos de apuntamiento

2.11 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 2. Medidas descriptivas
Siguiente: 2.3 Estadsticos de tendencia central
Previo: 2. Medidas descriptivas

2.1 Introduccin
Los fenmenos biolgicos no suelen ser constantes, por lo que ser necesario que junto a una medida
que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia
a la variabilidad que refleje dicha fluctuacin.

En este sentido pueden examinarse varias caractersticas, siendo las ms comunes:

*
La tendencia central de los datos;
*
La dispersin o variacin con respecto a este centro;
*
Los datos que ocupan ciertas posiciones.
*
La simetra de los datos.
*
La forma en la que los datos se agrupan.

Figura:Medidas representativas de un conjunto de datos estadsticos


A lo largo de este captulo, y siguiendo este orden, iremos estudiando los estadsticos que nos van a
orientar sobre cada uno de estos niveles de informacin: valores alrededor de los cuales se agrupa la
muestra, la mayor o menor fluctuacin alrededor de esos valores, nos interesaremos en ciertos valores
que marcan posiciones caractersticas de una distribucin de frecuencias as como su simetra y su
forma.

Nodo Raz: 2. Medidas descriptivas


Siguiente: 2.3 Estadsticos de tendencia central
Previo: 2. Medidas descriptivas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 2. Medidas descriptivas
Siguiente: 2.3.2 La media
Previo: 2.1 Introduccin

2.3 Estadsticos de tendencia central


Las tres medidas ms usuales de tendencia central son:

*
la media,
*
la mediana,
*
la moda.

En ciertas ocasiones estos tres estadsticos suelen coincidir, aunque generalmente no es as. Cada uno
de ellos presenta ventajas e inconvenientes.

2.3.2 La media
2.3.2.1 Observacin

2.3.2.2 Proposicin

2.3.2.3 Ejemplo

2.3.2.4 Proposicin (Knig)

2.3.2.5 Proposicin (Linealidad de la media)

2.3.2.6 Proposicin

2.3.2.7 Observacin

2.3.2.8 Clculo abreviado

2.3.2.9 Medias generalizadas

2.3.4 La mediana
2.3.4.1 Observacin

2.3.4.2 Observacin

2.3.4.3 Ejemplo

2.3.4.4 Ejemplo
2.3.6 La moda
2.3.6.1 Observacin

2.3.8 Relacin entre media, mediana y moda


2.3.8.1 Ejemplo

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 2. Medidas descriptivas
Siguiente: 2.7 Medidas de variabilidad o dispersin
Previo: 2.3.8 Relacin entre media, mediana y

2.5 Estadsticos de posicin


Para una variable discreta, se define el percentil de orden k, como la observacin, P , que deja por
k

debajo de si el de la poblacin. Esta definicin nos recuerda a la mediana, pues como


consecuencia de la definicin es evidente que

M = P50
ed

En el caso de una variable continua, el intervalo donde se encuentra , se calcula

buscando el que deja debajo de si al de las observaciones. Dentro de l, P se obtiene segn la


k
relacin:

Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distribucin, por lo
que no puede considerarsele como una medida de tendencia central.

Los cuartiles, Q , son un caso particular de los percentiles. Hay 3, y se definen como:
l

De forma anloga se definen los deciles como los valores de la variable que dividen a las
observaciones en 10 grupos de igual tamao. Ms precisamente, definimos D1,D2, ..., D9 como:

Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son denominados
estadsticos de posicin.

2.5.0.1 Ejemplo

Dada la siguiente distribucin en el nmero de hijos de cien familias, calcular sus cuartiles.

x n N
i i i

0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100

Solucin:

1.
Primer cuartil:

2.
Segundo cuartil:
3.
Tercer cuartil:

2.5.0.2 Ejemplo

Calcular los cuartiles en la siguiente distribucin de una variable continua:

l -1 - l n N
i i i i

0-1 10 10
1-2 12 22
2-3 12 34
3-4 10 44
4-5 7 51
n=51

Solucin:

1.
Primer cuartil

2.
Segundo cuartil:
3.
Tercer cuartil

2.5.0.3 Ejemplo

Han sido ordenados los pesos de 21 personas en la siguiente tabla:

Intervalos f.a.
l -1 -- l n
i i i

38 -- 45 3
45 -- 52 2
52 -- 59 7
59 -- 66 3
66 -- 73 6
21

Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo nmero de
observaciones.

Solucin: Las cantidades que buscamos son los tres cuartiles: , y . Para calcularlos, le
aadimos a la tabla las columnas con las frecuencias acumuladas, para localizar qu intervalos son
los que contienen a los cuartiles buscados:

l -1 -- l n N
i i i i

38 -- 45 3 3
45 -- 52 2 5

52 -- 59 7 12

59 -- 66 3 15

66 -- 73 6 21

21

y se encuentran en el
intervalo 52--59, ya que
N3=12 es la primera f.a.a. que
supera a y

est en 66--73, pues


N5=21 es el primer N mayor
i

que .

As se tiene que:
Obsrvese que . Esto es lgico, ya que la mediana divide a la distribucin en dos partes

con el mismo nmero de observaciones, y , hace lo mismo, pues es deja a dos cuartos de los datos
por arriba y otros dos cuartos por abajo.

2.5.0.4 Ejemplo

La distribucin de una variable tiene por polgono acumulativo de frecuencias el de la figura 2.6. Si el
nmero total de observaciones es 50:

1.
Elaborar una tabla estadstica con los siguientes elementos: intervalos, marcas de clase,
frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y frecuencias relativa
acumulada.
2.
Cuntas observaciones tuvieron un valor inferior a 10, cuntas inferior a 8 y cuntas fueron
superior a 11.
3.
Calcule las modas.
4.
Determine los cuartiles.
Figura:Diagrama acumulado de frecuencias relativas.

Solucin:

1.
En la siguiente tabla se proporciona la informacin pedida y algunos clculos auxiliares que
nos permitirn responder a otras cuestiones.

Intervalos ni Ni f
i
F
i
x
i
a
i

0-5 10 10 0,2 0,3 2,5 5 2


5-7 25 35 0,5 0,7 6 2 12,5
7 - 12 5 40 0,1 0,8 9,5 5 1
12 - 15 10 50 0,2 1 13,5 7 3,33

2.
Calculemos el nmero de observaciones pedido:

10 + 25+3 = 38 observaciones tomaron un valor inferior a 10


10 + 25+1 = 36 observaciones tomaron un valor inferior a 8

50 -(10 + 25+4) = 50-39=11 observaciones tomaron un valor superior a 11

3.
Hay dos modas. Calculemos la ms representativa:

4.
Cuartiles:
2.5.0.1 Ejemplo
2.5.0.2 Ejemplo
2.5.0.3 Ejemplo
2.5.0.4 Ejemplo

Nodo Raz: 2. Medidas descriptivas


Siguiente: 2.7 Medidas de variabilidad o dispersin
Previo: 2.3.8 Relacin entre media, mediana y

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 2. Medidas descriptivas
Siguiente: 2.7.2 Desviacin media, Dm
Previo: 2.5 Estadsticos de posicin

2.7 Medidas de variabilidad o dispersin


Los estadsticos de tendencia central o posicin nos indican donde se sita un grupo de puntuaciones.
Los de variabilidad o dispersin nos indican si esas puntuaciones o valores estn prximas entre s o
si por el contrario estn o muy dispersas.

Una medida razonable de la variabilidad podra ser la amplitud o rango, que se obtiene restando el
valor ms bajo de un conjunto de observaciones del valor ms alto. Es fcil de calcular y sus unidades
son las mismas que las de la variable, aunque posee varios inconvenientes:

No utiliza todas las observaciones (slo dos de ellas);


Se puede ver muy afectada por alguna observacin extrema;
El rango aumenta con el nmero de observaciones, o bien se queda igual. En cualquier caso
nunca disminuye.

En el transcurso de esta seccin, veremos medidas de dispersin mejores que la anterior. Estas se
determinan en funcin de la distancia entre las observaciones y algun estadstico de tendencia central.

2.7.2 Desviacin media, D


m
2.7.4 Varianza y desviacin tpica
2.7.4.1 Ejemplo

2.7.4.2 Proposicin

2.7.4.3 Observacin

2.7.4.4 Proposicin

2.7.4.5 Observacin

2.7.4.6 Mtodo abreviado para el clculo de la varianza

2.7.4.7 Grados de libertad

2.7.4.8 Tipificacin

2.7.6 Coeficiente de variacin


2.7.6.1 Observacin

2.7.6.2 Ejemplo
Nodo Raz: 2. Medidas descriptivas
Siguiente: 2.7.2 Desviacin media, Dm
Previo: 2.5 Estadsticos de posicin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 2. Medidas descriptivas
Siguiente: 2.9.2 Estadsticos de asimetra
Previo: 2.7.6 Coeficiente de variacin

2.9 Asimetra y apuntamiento


Sabemos cmo calcular valores alrededor de los cuales se distribuyen las observaciones de una
variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecen los mismos con
respecto al valor de central. Nos proponemos dar un paso ms all en el anlisis de la variable. En
primer lugar, nos vamos a plantear el saber si los datos se distribuyen de forma simtrica con respecto
a un valor central, o si bien la grfica que representa la distribucin de frecuencias es de una forma
diferente del lado derecho que del lado izquierdo.

Si la simetra ha sido determinada, podemos preguntarnos si la curva es ms o menos apuntada (larga


y estrecha). Este apuntamiento habr que medirlo comparado a cierta distribucin de frecuencias que
consideramos normal (no por casualidad es ste el nombre que recibe la distribucin de referencia).

Estas ideas son las que vamos a desarrollar en lo que resta del captulo.

2.9.2 Estadsticos de asimetra


2.9.2.1 Observacin

2.9.2.2 ndice basado en los tres cuartiles (Yule-Bowley)

2.9.2.3 ndice basado en el momento central de tercer orden

2.9.2.4 Ejemplo

2.9.2.5 Observacin

2.9.2.6 Otros ndices de asimetra

2.9.2.7 Ejemplo

2.9.4 Estadsticos de apuntamiento

Nodo Raz: 2. Medidas descriptivas


Siguiente: 2.9.2 Estadsticos de asimetra
Previo: 2.7.6 Coeficiente de variacin
ste texto es la versin electrnica del manual de la Universidad de Mlaga:
Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 2. Medidas descriptivas
Siguiente: 3. Variables bidimensionales
Previo: 2.9.4 Estadsticos de apuntamiento

2.11 Problemas
Ejercicio 2..1. En el siguiente conjunto de nmeros, se proporcionan los pesos (redondeados a la
libra ms prxima) de los bebs nacidos durante un cierto intervalo de tiempo en un hospital:

4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5,


7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.

1.
Construir una distribucin de frecuencias de estos pesos.
2.
Encontrar las frecuencias relativas.
3.
Encontrar las frecuencias acumuladas.
4.
Encontrar las frecuencias relativas acumuladas.
5.
Dibujar un histograma con los datos de la parte a.
6.
Por qu se ha utilizado un histograma para representar estos datos, en lugar de una grfica de
barras?
7.
Calcular las medidas de tendencia central.
8.
Calcular las medidas de dispersin.
9.
Calcular las medidas de forma.
10.
Es esta una distribucin sesgada? De ser as, en qu direccin?
11.
Encontrar el percentil 24.

Ejercicio 2..2. A continuacin se dan los resultados obtenidos con una muestra de 50 universitarios.
la caracterstica es el tiempo de reaccin ante un estmulo auditivo:

0,110 0,110 0,126 0,112 0,117 0,113 0,135 0,107 0,122


0,113 0,098 0,122 0,105 0,103 0,119 0,100 0,117 0,113
0,124 0,118 0,132 0,108 0,115 0,120 0,107 0,123 0,109
0,117 0,111 0,112 0,101 0,112 0,111 0,119 0,103 0,100
0,108 0,120 0,099 0,102 0,129 0,115 0,121 0,130 0,134
0,118 0,106 0,128 0,094 0,1114

1.
Cul es la amplitud total de la distribucin de los datos?
2.
Obtenga la distribucin de frecuencias absolutas y relativas.
3.
Obtenga la distribucin de frecuencias acumuladas, absolutas y relativas, con los intervalos
anteriores.
4.
Calcular la media y la varianza con los intervalos del apartado b y despus calculense las
mismas magnitudes sin ordenar los datos en una tabla estadstica.Con qu mtodo se obtiene
mayor precisin?
5.
Dibuje el polgono de frecuencias relativas.
6.
Dibuje el polgono de frecuencias relativas acumuladas.

Ejercicio 2..3. Con el fin de observar la relacin entre la inteligencia y el nivel socioeconmico
(medido por el salario mensual familiar) se tomaron dos grupos, uno formado con sujetos de cociente
intelectual inferior a 95 y otro formado por los dems; De cada sujeto se anot el salario mensual
familiar. Teniendo en cuenta los resultados que se indican en la tabla:

Nivel socioeconmico Sujetos con CI < 95 Sujetos con

Intervalos Frecuencia Frecuencia

10 o menos 75 19

10 - 16 35 26
16 - 22 20 25
22 - 28 30 30
28 - 34 25 54

ms de 34 15 46
1.
Dibuje un grfico que permita comparar ambos grupos.
2.
Calcule las medidas de tendencia central para aquellos sujetos con CI < 95.
3.
Calcular las medidas de dispersin para aquellos sujetos con .

Ejercicio 2..4. Un estudio consisti en anotar el nmero de palabras ledas en 15 segundos por un
grupo de 120 sujetos dislxicos y 120 individuos normales. Teniendo en cuenta los resultados de la
tabla

de palabras ledas Dislxicos nD Normales nN

25 o menos 56 1
26 24 9
27 16 21
28 12 29
29 10 28

30 o ms 2 32

calcule:

1.
Las medias aritmticas de ambos grupos.
2.
Las medianas de ambos grupos.
3.
El porcentaje de sujetos dislxicos que superaron la mediana de los normales.
4.
Compare la variabilidad relativa de ambos grupos.

Ejercicio 2..5. La tabla siguiente muestra la composicin por edad, sexo y trabajo de un grupo de
personas con tuberculosis pulmonar en la provincia de Vizcaya en el ao 1979:

Edad Trabajadores No trabajadores Totales


Varn Mujer Total Varn Mujer Total Varn Mujer Total
14-19 2 1 3 25 40 65 27 41 68
19-24 10 4 14 20 36 56 30 40 70
24-29 32 10 42 15 50 65 47 60 107
29-34 47 12 59 13 34 47 60 46 106
34-39 38 8 46 10 25 35 48 33 81
39-44 22 4 26 7 18 25 29 22 51

1.
Representar grficamente la distribucin de frecuencias de aquellas personas trabajadoras que
padecen tuberculosis.
2.
Representar grficamente la distribucin de frecuencias de los varones no trabajadores que
padecen tuberculosis.
3.
Representar grficamente la distribucin de frecuencias del nmero total de mujeres que
padecen tuberculosis.
4.
Cul es la edad en la que se observa con mayor frecuencia que no trabajan los varones? Y
las mujeres? Determinar asmismo la edad ms frecuente (sin distincin de sexos ni
ocupacin).
5.
Por debajo de qu edad est el 50% de los varones?
6.
Por encima de qu edad se encuentra el 80% de las mujeres?
7.
Obtener la media, mediana y desviacin tpica de la distribucin de las edades de la muestra
total.
8.
Estudiar la asimetra de las tres distribuciones.

Ejercicio 2..6. En una epidemia de escarlatina, se ha recogido el nmero de muertos en 40 ciudades


de un pas, obtenindose la siguiente tabla:

de muertos 0 1 2 3 4 5 6 7
Ciudades 7 11 10 7 1 2 1 1

1.
Representar grficamente estos datos.
2.
Obtener la distribucin acumulada y representarla.
3.
Calcular media, mediana y moda.
4.
Calcular la varianza y la desviacin tpica.
5.
Porcentaje de ciudades con al menos 2 muertos.
6.
Porcentaje de ciudades con ms de 3 muertos.
7.
Porcentaje de ciudades con a lo sumo 5 muertos.

Nodo Raz: 2. Medidas descriptivas


Siguiente: 3. Variables bidimensionales
Previo: 2.9.4 Estadsticos de apuntamiento

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: Bioestadstica: Mtodos y Aplicaciones
Siguiente: 3.2 introduccin
Previo: 2.11 Problemas

3. Variables bidimensionales

3.2 introduccin
3.4 Tablas de doble entrada
3.4.2 Distribuciones marginales

3.4.2.1 Observacin

3.4.4 Distribuciones condicionadas

3.4.4.1 Observacin

3.6 Dependencia funcional e independencia


3.6.2 Dependencia funcional

3.6.2.1 Ejemplo

3.6.4 Independencia

3.6.4.1 Proposicin (Independencia en tablas de doble entrada)

3.6.4.2 Observacin

3.6.4.3 Ejemplo

3.8 Medias y varianzas marginales y condicionadas


3.8.0.1 Proposicin

3.10 Covarianza y coeficiente de correlacin


3.10.0.1 Proposicin

3.10.0.2 Ejemplo

3.10.2 Una interpretacin geomtrica de la covarianza

3.10.2.1 Proposicin

3.10.4 Interpretacin geomtrica de r

3.10.4.1 Proposicin

3.12 Regresin
3.12.2 Bondad de un ajuste

3.12.4 Regresin lineal

3.12.4.1 Observacin

3.12.4.2 Regresin de Y sobre X

3.12.4.3 Regresin de X sobre Y


3.12.4.4 Ejemplo
3.12.4.5 Propiedades de la regresin lineal

3.12.4.6 Proposicin

3.12.4.7 Observacin

3.12.4.8 Proposicin

3.12.4.9 Ejemplo

3.12.4.10 Ejemplo

3.14 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 3. Variables bidimensionales
Siguiente: 3.4 Tablas de doble entrada
Previo: 3. Variables bidimensionales

3.2 introduccin
En lo estudiado anteriormente hemos podido aprender cmo a partir de la gran cantidad de datos que
describen una muestra mediante una variable, X, se representan grficamente los mismos de modo
que resulta ms intuitivo hacerse una idea de como se distribuyen las observaciones.

Otros conceptos que segn hemos visto, tambin nos ayudan en el anlisis, son los estadsticos de
tendencia central, que nos indican hacia donde tienden a agruparse los datos (en el caso en que lo
hagan), y los estadsticos de dispersin, que nos indican si las diferentes modalidades que presenta la
variable estn muy agrupadas alrededor de cierto valor central, o si por el contrario las variaciones
que presentan las modalidades con respecto al valor central son grandes.

Tambin sabemos determinar ya si los datos se distribuyen de forma simtrica a un lado y a otro de
un valor central.

En este captulo pretendemos estudiar una situacin muy usual y por tanto de gran inters en la
prctica:

Si Y es otra variable definida sobre la misma poblacin que X, ser posible determinar
si existe alguna relacin entre las modalidades de X y de Y?

Un ejemplo trivial consiste en considerar una poblacin formada por alumnos de primero de
Medicina y definir sobre ella las variables

ya que la relacin es determinista y clara: Y=X/100. Obsrvese que aunque la variable Y, como tal
puede tener cierta dispersin, vista como funcin de X, su dispersin es nula.

Un ejemplo ms parecido a lo que nos interesa realmente lo tenemos cuando sobre la misma
poblacin definimos las variables
Intuitivamente esperamos que exista cierta relacin entre ambas variables, por ejemplo,

dispersin

que nos expresa que (en media) a mayor altura se espera mayor peso. La relacin no es exacta y por
ello ser necesario introducir algn termino que exprese la dispersin de Ycon respecto a la variable
X.

Es fundamental de cara a realizar un trabajo de investigacin experimental, conocer muy bien las
tcnicas de estudio de variables bidimensionales (y n-dimensionales en general). Baste para ello
pensar que normalmente las relaciones entre las variables no son tan evidentes como se mencion
arriba. Por ejemplo:

Se puede decir que en un grupo de personas existe alguna relacin entre X = tensin
arterial e Y = edad?

Aunque en un principio la notacin pueda resultar a veces algo desagradable, el lector podr
comprobar, al final del captulo, que es bastante accesible. Por ello le pedimos que no se asuste. Al
final ver que no son para tanto.

Nodo Raz: 3. Variables bidimensionales


Siguiente: 3.4 Tablas de doble entrada
Previo: 3. Variables bidimensionales

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 3. Variables bidimensionales
Siguiente: 3.4.2 Distribuciones marginales
Previo: 3.2 introduccin

3.4 Tablas de doble entrada


Consideramos una poblacin de n individuos, donde cada uno de ellos presenta dos caracteres que
representamos mediante las variables X e Y. Representamos mediante

las k modalidades que presenta la variable X, y mediante

las p modalidades de Y.

Con la intencin de reunir en una sla estructura toda la informacin disponible, creamos una tabla
formada por casillas, organizadas de forma que se tengan k filas y p columnas. La casilla

denotada de forma general mediante el har referencia a los elementos de la muestra


que presentan simultneamente las modalidades x e y .
i j

Y y1 y2 ... y ... y
j p

x1 n11 n12 ... n1 ... n1


j p

x2 n21 n22 ... n2 ... n2


j p

... ... ... ... ... ... ... ...

x n1 n2 ... n ... n
i i i ij ip

... ... ... ... ... ... ... ...


x n n ... n ... n
k k1 k2 kj kp

... ...

De este modo, para , , se tiene que n es el nmero de individuos o


ij
frecuencia absoluta, que presentan a la vez las modalidades x e y .
i j

El nmero de individuos que presentan la modalidad x , es lo que llamamos frecuencia absoluta


i
marginal de x y se representa como . Es evidente la igualdad
i

Obsrvese que hemos escrito un smbolo `` '' en la ``parte de las jotas'' que simboliza que estamos
considerando los elemento que presentan la modalidad x , independientemente de las modalidades
i
que presente la variable Y. De forma anloga se define la frecuencia absoluta marginal de la
modalidad y como
j

Estas dos distribuciones de frecuencias para ,y para reciben


el nombre de distribuciones marginales de X e Y respectivamente.

El nmero total de elementos de la poblacin (o de la muestra), n lo obtenemos de cualquiera de las


siguientes formas, que son equivalentes:
Las distribuciones de frecuencias de las variables bidimensionales tambin pueden ser representadas
grficamente. Al igual que en el caso unidimensional existen diferentes tipos de representaciones
grficas, aunque estas resultan a ser ms complicadas (figura 3.1).

Figura:Algunos de las representaciones grficas habituales de distribuciones de frecuencias


bidimensionales.

3.4.2 Distribuciones marginales


3.4.2.1 Observacin

3.4.4 Distribuciones condicionadas


3.4.4.1 Observacin

Nodo Raz: 3. Variables bidimensionales


Siguiente: 3.4.2 Distribuciones marginales
Previo: 3.2 introduccin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 3. Variables bidimensionales
Siguiente: 3.6.2 Dependencia funcional
Previo: 3.4.4 Distribuciones condicionadas

3.6 Dependencia funcional e independencia


La relacin entre las variables X e Y, parte del objetivo de este captulo y en general de un nmero
importante de los estudios de las Ciencias Sociales, puede ser ms o menos acentuada, pudiendo
llegar sta desde la dependencia total o dependencia funcional hasta la independencia.

3.6.2 Dependencia funcional


3.6.2.1 Ejemplo

3.6.4 Independencia
3.6.4.1 Proposicin (Independencia en tablas de doble entrada)

3.6.4.2 Observacin

3.6.4.3 Ejemplo

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 3. Variables bidimensionales
Siguiente: 3.10 Covarianza y coeficiente de correlacin
Previo: 3.6.4 Independencia

3.8 Medias y varianzas marginales y


condicionadas
Asociados a las distribuciones marginales y condicionadas definidas en las secciones anteriores,
podemos definir algunos estadsticos de tendencia central o dispersin, generalizando los que vimos
en los captulos dedicados al anlisis de una variable . Las medias marginales de la variable X e Y se
definen del siguiente modo:

Las varianzas marginales respectivas son


Para cada una de las p variables condicionadas definimos sus respectivas media condicionada
y varianza condicionada mediante:

y lo mismo hacemos para las k condicionadas

Es interesante observar que podemos considerar que las observaciones de la variable Xhan sido
agrupadas en p subgrupos, cada uno de ellos caracterizados por la propiedad de que Y=y para algn
j
. As la proposicin de la pgina nos permite afirmar que las medias de las
marginales es la media ponderada de las condicionadas, y la proposicin de la pgina 2.1, que la
varianza de las marginales es la media ponderada de las varianzas condicionadas mas la varianza
ponderada de las medias condicionadas (uff!). Vamos a enunciar de modo ms preciso lo que
acabamos de enunciar:

3.8.0.1 Proposicin

Las medias y varianzas marginales de las variables X y Yse pueden escribir de modo equivalente
como:
3.8.0.1 Proposicin

Nodo Raz: 3. Variables bidimensionales


Siguiente: 3.10 Covarianza y coeficiente de correlacin
Previo: 3.6.4 Independencia

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 3. Variables bidimensionales
Siguiente: 3.10.2 Una interpretacin geomtrica de la
Previo: 3.8 Medias y varianzas marginales y

3.10 Covarianza y coeficiente de correlacin


Cuando analizbamos las variables unidimensionales considerbamos, entre otras medidas
importantes, la media y la varianza. Ahora hemos visto que estas medidas tambin podemos
considerarlas de forma individual para cada una de las componentes de la variable bidimensional.

Si observamos con atencin los trminos

vemos que las cantidades y van al cuadrado y por tanto no pueden ser
negativas.

La covarianza , es una manera de generalizar la varianza y se define como:

Como se ve, la frmula es muy parecida a las de las varianzas. Es sencillo comprobar que se verifica
la siguiente expresin de , ms til en la prctica:

3.10.0.1 Proposicin
Si las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene que

o lo que es lo mismo

3.10.0.2 Ejemplo

Se han clasificado 100 familias segn el nmero de hijos varones ( ) o hembras ( ), en la tabla
siguiente:

0 1 2 3 4

0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1
4 2 3 2 1 0

1.
Hallar las medias, varianzas y desviaciones tpicas marginales.

2.
Qu nmero medio de hijas hay en aquellas familias que tienen 2 hijos?
3.
Qu nmero medio de hijos varones hay en aquellas familias que no tienen hijas?

4.
Qu nmero medio de hijos varones tienen aquellas familias que a lo sumo tienen 2 hijas?

5.
Hallar la covarianza

Solucin:En primer lugar, definimos las variables X= nmero de hijos varones, e Y=nmero de hijas
y construimos la tabla con las frecuencias marginales, y con otras cantidades que nos son tiles en el
clculo de medias y varianzas:

y1 y2 y3 y4 y5

0 1 2 3 4

4 6 9 4 1 24 0 0 0

5 10 7 4 2 28 28 28 44

7 8 5 3 1 24 48 96 62

5 5 3 2 1 16 48 144 63

2 3 2 1 0 8 32 128 40

23 32 26 14 5 100 156 396 209

0 32 52 42 20 146

0 32 104 126 80 342

de este modo, las medias marginales son


Calculamos despus las varianzas marginales

que nos dan directamente las desviaciones tpicas marginales,

El nmero medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribucin
condicionada de

n3 n3 y
j j j

7 0

8 8

5 10
3 9

1 4

24 31

Del mismo modo, el nmero medio de hijos varones de las familias sin hijas, se calcula con la
distribucin condicionada

n1 n1x
i i i

4 0

5 5

7 14

5 15

2 8

23 42

El nmero medio de hijos varones en las familias que a lo sumo tienen dos hijas, se calcula usando
las marginales de la tabla obtenida a partir de las columnas y1, y2 e y3

n 1 n 2 n 3 n 1+n 2+n 3 (n 1+n 2+n 3) x


i i i i i i i i i i

4 6 9 19 19

5 10 7 22 22
7 8 5 20 40

5 5 3 13 39

2 3 2 7 28

81 129

La covarianza es:

3.10.0.1 Proposicin
3.10.0.2 Ejemplo
3.10.2 Una interpretacin geomtrica de la covarianza
3.10.2.1 Proposicin

3.10.4 Interpretacin geomtrica de r


3.10.4.1 Proposicin

Nodo Raz: 3. Variables bidimensionales


Siguiente: 3.10.2 Una interpretacin geomtrica de la
Previo: 3.8 Medias y varianzas marginales y

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 3. Variables bidimensionales
Siguiente: 3.12.2 Bondad de un ajuste
Previo: 3.10.4 Interpretacin geomtrica de r

3.12 Regresin
Las tcnicas de regresin permiten hacer predicciones sobre los valores de cierta variable Y
(dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una
relacin. Para ilustrarlo retomemos los ejemplos mencionados al principio del captulo. Si sobre un
grupo de personas observamos los valores que toman las variables

no es necesario hacer grandes esfuerzos para intuir que la relacin que hay entre ambas es:

Obtener esta relacin es menos evidente cuando lo que medimos sobre el mismo grupo de personas
es

La razn es que no es cierto que conocida la altura x de un individuo, podamos determinar de modo
i
exacto su peso y (v.g. dos personas que miden 1,70 m pueden tener pesos de 60 y 65 kilos). Sin
i
embargo, alguna relacin entre ellas debe existir, pues parece mucho ms probable que un individuo
de 2 m pese ms que otro que mida 1,20 m. Es ms, nos puede parecer ms o menos aproximada una
relacin entre ambas variables como la siguiente
A la deduccin, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que
denominamos regresin.

Figura:Mediante las tcnicas de regresin de una variable Y sobre una variable X,


buscamos una funcin que sea una buena aproximacin de una nube de puntos (x ,y ),
i i

mediante una curva del tipo . Para ello hemos de asegurarnos de que la

diferencia entre los valores y e sea tan pequea como sea posible.
i

Mediante las tcnicas de regresin inventamos una variable como funcin de otra variable X (o
viceversa),

Esto es lo que denominamos relacin funcional. El criterio para construir , tal como citamos
anteriormente, es que la diferencia entre Y e sea pequea.
El trmino que hemos denominado error debe ser tan pequeo como sea posible (figura 3.7). El

objetivo ser buscar la funcin (tambin denominada modelo de regresin) que lo


minimice. Vase la figura 3.8.

Figura:Diferentes nubes de puntos y modelos de regresin para ellas.

3.12.2 Bondad de un ajuste


3.12.4 Regresin lineal
3.12.4.1 Observacin

3.12.4.2 Regresin de Y sobre X


3.12.4.3 Regresin de X sobre Y
3.12.4.4 Ejemplo
3.12.4.5 Propiedades de la regresin lineal
3.12.4.6 Proposicin
3.12.4.7 Observacin
3.12.4.8 Proposicin
3.12.4.9 Ejemplo
3.12.4.10 Ejemplo

Nodo Raz: 3. Variables bidimensionales


Siguiente: 3.12.2 Bondad de un ajuste
Previo: 3.10.4 Interpretacin geomtrica de r

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 3. Variables bidimensionales
Siguiente: 4. Clculo de probabilidades y variables
Previo: 3.12.4 Regresin lineal

3.14 Problemas
Ejercicio 3..1. Se realiza un estudio para establecer una ecuacin mediante la cual se pueda utilizar la
concentracin de estrona en saliva(X) para predecir la concentracin del esteroide en plasma libre
(Y). Se extrajeron los siguientes datos de 14 varones sanos:

X 1,4 7,5 8,5 9 9 11 13 14 14,5 16 17 18 20 23


Y 30 25 31,5 27,5 39,5 38 43 49 55 48,5 51 64,5 63 68

1.
Estdiese la posible relacin lineal entre ambas variables.

2.
Obtener la ecuacin que se menciona en el enunciado del problema.

3.
Determinar la variacin de la concentracin de estrona en plasma por unidad de estrona en
saliva.

Ejercicio 3..2. Los investigadores estn estudiando la correlacin entre obesidad y la respuesta
individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (X). La respuesta al
dolor se mide utilizando el umbral de reflejo de flexin nociceptiva (Y), que es una medida de
sensacin de punzada. Se obtienen los siguientes datos:

X 89 90 75 30 51 75 62 45 90 20
Y 2 3 4 4,5 5,5 7 9 13 15 14

1.
Qu porcentaje de la varianza del peso es explicada mediante un modelo de regesein lineal
por la variacin del umbral de reflejo?

2.
Estdiese la posible relacin lineal entre ambas variables, obteniendo su grado de ajuste.
3.
Qu porcentaje de sobrepeso podemos esperar para un umbral de reflejo de 10?

Ejercicio 3..3. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad
corporal para absorber hierro y plomo. Participan en el estudio 10 sujetos. A cada uno se le da una
dosis oral idntica de hierro y plomo. Despus de 12 das se mide la cantidad de cada componente
retenida en el sistema corporal y, a partir de sta, se determina el porcentaje absorbido por el cuerpo.
Se obtuvieron los siguientes datos:

Porcentaje de hierro 17 22 35 43 80 85 91 92 96 100

Porcentaje de plomo 8 17 18 25 58 59 41 30 43 58

1.
Comprobar la idoneidad del modelo lineal de regresin.

2.
Obtener la recta de regresin, si el modelo lineal es adecuado.

3.
Predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el
15% del plomo ingerido.

Ejercicio 3..4. Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un
lago, se toman medidas de la concentracin de nitrato en el agua. Para monitorizar la variable se ha
utilizado un antiguo mtodo manual. Se idea un nuevo mtodo automtico. Si se pone de manifiesto
una alta correlacin positiva entre las medidas tomadas empleando los dos mtodos, entonces se har
uso habitual del mtodo automtico. Los datos obtenidos son los siguientes:

Manual 25 40 120 75 150 300 270 400 450 575

Automtico 30 80 150 80 200 350 240 320 470 583

1.
Hallar el coeficiente de determinacin para ambas variables.
2.
Comprobar la idoneidad del modelo lineal de regresin. Si el modelo es apropiado, hallar la
recta de regresin de Y sobre X y utilizarla para predecir la lectura que se obtendra empleando
la tcnica automtica con una muestra de agua cuya lectura manual es de 100.
3.
Para cada una de las observaciones, halle las predicciones que ofrece el modelo lineal de
regresin para X en funcin de Y, e Y en funcin de X, es decir, e .
4.
Calcule los errores para cada una de dichas predicciones, es decir, las variables e

.
5.
Que relacin hay entre las medias de X y ? Y entre las de Y e ?
6.
Calcule las medias de e . Era de esperar el valor obtenido?
7.
Calcule las varianzas de X, , Y, , e .
8.
Qu relacin existe entre y Y entre y ?
9.
Que relacin ecuentra entre y ? Tambin es vlida para y ?
10.
Justifique a partir de todo lo anterior porqu se denomina r2 como grado de bondad del
ajuste lineal.

Ejercicio 3..5. Se ha medido el aclaramiento de creatinina en pacientes tratados con Captopril tras la
suspensin del tratamiento con dilisis, resultando la siguiente tabla:

Das tras la dilisis 1 5 10 15 20 25 35

Creatinina (mg/dl) 5,7 5,2 4,8 4,5 4,2 4 3,8

1.
Hllese la expresin de la ecuacin lineal que mejor exprese la variacin de la creatinina, en
funcin de los dias transcurridos tras la dilisis, as como el grado de bondad de ajuste y la
varianza residual.

2.
En qu porcentaje la variacin de la creatinina es explicada por el tiempo transcurrido desde
la dilisis?

3.
Si un individuo presenta 4'1 mg/dl de creatinina, cunto tiempo es de esperar que haya
transcurrido desde la suspensin de la dilisis?

Ejercicio 3..6. En un ensayo clnico realizado tras el posible efecto hipotensor de un frmaco, se
evala la tensin arterial diastlica (TAD) en condiciones basales (X), y tras 4 semanas de
tratamiento (Y), en un total de 14 pacientes hipertensos. Se obtienen los siguiente valores de TAD:

X 95 100 102 104 100 95 95 98 102 96 100 96 110 99


Y 85 94 84 88 85 80 80 92 90 76 90 87 102 89

1.
Existe relacin lineal entre la TAD basal y la que se observa tras el tratamiento?

2.
Cul es el valor de TAD esperado tras el tratamiento, en un paciente que present una TAD
basal de 95 mm de Hg?

Ejercicio 3..7. Se han realizado 9 tomas de presin intracraneal en animales de laboratorio, por un
mtodo estndar directo y por una nueva tcnica experimental indirecta, obtenindose los resultados
siguientes en mm de Hg:

Mtodo estndar 9 12 28 72 30 38 76 26 52

Mtodo experimental 6 10 27 67 25 35 75 27 53

1.
Hallar la ecuacin lineal que exprese la relacin existente entre las presiones intracraneales,
determinadas por los dos mtodos.

2.
Qu tanto por ciento de la variabilidad de Y es explicada por la regresin? Hllese el grado de
dependencia entre las dos variables y la varianza residual del mismo.

Nodo Raz: 3. Variables bidimensionales


Siguiente: 4. Clculo de probabilidades y variables
Previo: 3.12.4 Regresin lineal

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: Bioestadstica: Mtodos y Aplicaciones
Siguiente: 4.2 introduccin
Previo: 3.14 Problemas

4. Clculo de probabilidades y variables


aleatorias

4.2 introduccin
4.4 Experimentos y sucesos aleatorios
4.4.0.0.0.1 Suceso seguro:

4.4.0.0.0.2 Suceso imposible:

4.4.0.0.0.3 Suceso contrario a un suceso A:

4.4.0.1 Ejemplo

4.6 Operaciones bsicas con sucesos aleatorios


4.6.0.0.0.1 Unin:

4.6.0.0.0.2 Interseccin:

4.6.0.0.0.3 Diferencia:

4.6.0.0.0.4 Diferencia simtrica:

4.8 Experimentos aleatorios y probabilidad


4.8.0.1 Ejemplo

4.8.2 Probabilidad de Laplace

4.8.2.1 Ejemplo

4.8.4 Definicin axiomtica de probabilidad

4.8.4.1 Concepto de -lgebra de sucesos


4.8.4.2 Concepto axiomtico de probabilidad

4.8.4.3 Observacin

4.10 Probabilidad condicionada e independencia de sucesos


4.10.0.1 Ejemplo

4.10.0.2 Observacin

4.12 Ciertos teoremas fundamentales del clculo de probabilidades


4.12.0.1 Proposicin

4.12.0.2 Ejemplo

4.12.0.3 Ejemplo
4.12.0.4 Teorema (Probabilidad compuesta)
4.12.0.5 Teorema (Probabilidad total)

4.12.0.6 Ejemplo

4.12.0.7 Teorema (Bayes)

4.12.0.8 Ejemplo

4.12.0.9 Observacin

4.14 Tests diagnsticos


4.14.0.1 Ejemplo

4.16 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 4. Clculo de probabilidades y variables
Siguiente: 4.4 Experimentos y sucesos aleatorios
Previo: 4. Clculo de probabilidades y variables

4.2 introduccin
Si el nico propsito del investigador es describir los resultados de un experimento concreto, los
mtodos analizados en los captulos anteriores pueden considerarse suficientes. No obstante, si lo que
se pretende es utilizar la informacin obtenida para extraer conclusiones generales sobre todos
aquellos objetos del tipo de los que han sido estudiados, entonces estos mtodos constituyen slo el
principio del anlisis, y debe recurrirse a mtodos de inferencia estadstica, los cuales implican el uso
inteligente de la teora de la probabilidad.

Comenzamos este bloque interpretando la nocin de probabilidad y la terminologa subyacente a esta


rea de las matemticas, ya que la probabilidad constituye por s misma un concepto bsico que
refleja su relacin con la faceta del mundo exterior que pretende estudiar: los fenmenos aleatorios,
los cuales obedecen unas ciertas reglas de comportamiento. De alguna manera, el concepto de
probabilidad, se relaciona o nos recuerda las propiedades de la frecuencia relativa.

A partir de ella, y junto con las definiciones de probabilidad condicionada y la de sucesos


independientes, se deducen los teoremas fundamentales del Clculo de Probabilidades.

Nos centraremos posteriormente en el eslabn que une la teora de la probabilidad y la estadstica


aplicada: la nocin de variable aleatoria, mostrando de esta manera, como puede emplearse la teora
de la probabilidad para sacar conclusiones precisas acerca de una poblacin en base a una muestra
extrada de ella, y que muchos de los estudios estadsticos son de hecho, estudio de las propiedades
de una o ms variables aleatorias.

Tal como hemos citado anteriormente, en las aplicaciones prcticas es importante poder describir los
rasgos principales de una distribucin, es decir, caracterizar los resultados del experimento aleatorio
mediante unos parmetros. Llegamos as al estudio de las caractersticas asociadas a una variable
aleatoria introduciendo los conceptos de esperanza y varianza matemtica, relacionndolos con los
conceptos de media y varianza de una variable estadstica.

El clculo de probabilidades nos suministra las reglas para el estudio de los experimentos aleatorios
o de azar, constituyendo la base para la estadstica inductiva o inferencial.
Para trabajar con el clculo de probabilidades es necesario fijar previamente cierta terminologa.
Vamos a introducir parte de ella en las prximas lneas.

Nodo Raz: 4. Clculo de probabilidades y variables


Siguiente: 4.4 Experimentos y sucesos aleatorios
Previo: 4. Clculo de probabilidades y variables

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 4. Clculo de probabilidades y variables
Siguiente: 4.6 Operaciones bsicas con sucesos aleatorios
Previo: 4.2 introduccin

4.4 Experimentos y sucesos aleatorios


Diremos que un experimento es aleatorio si se verifican las siguientes condiciones:

1.
Se puede repetir indefinidamente, siempre en las mismas condiciones;

2.
Antes de realizarlo, no se puede predecir el resultado que se va a obtener;

3.
El resultado que se obtenga, e, pertenece a un conjunto conocido previamente de resultados
posibles. A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo
denotaremos normalmente mediante la letra E. Los elementos del espacio muestral se
denominan sucesos elementales.

Cualquier subconjunto de E ser denominado suceso aleatorio, y se denotar normalmente con las
letras A, B,...

Obsrvese que los sucesos elementales son sucesos aleatorios compuestos por un slo elemento. Por
supuesto los sucesos aleatorios son ms generales que los elementales, ya que son conjuntos que
pueden contener no a uno slo, sino a una infinidad de sucesos elementales --y tambin no contener
ninguno.-- Sucesos aleatorios que aparecen con gran frecuencia en el clculo de probabilidades son
los siguientes:

4.4.0.0.0.1 Suceso seguro:


Es aquel que siempre se verifica despus del experimento aleatorio, es decir, el mismo E

4.4.0.0.0.2 Suceso imposible:

Es aquel que nunca se verifica como resultado del experimento aleatorio. Como debe ser un
subconjunto de E, la nica posibilidad es que el suceso imposible sea el conjunto vaco

4.4.0.0.0.3 Suceso contrario a un suceso A:

Tambin se denomina complementario de A y es el suceso que se verifica si, como resultado del
experimento aleatorio, no se verifica A. Se acostumbra a denotar con el smbolo

Figura:Representacin grfica de un suceso aleatorio , y de su suceso contrario


4.4.0.1 Ejemplo

Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos:

4.4.0.0.0.1 Suceso seguro:


4.4.0.0.0.2 Suceso imposible:
4.4.0.0.0.3 Suceso contrario a un suceso A:
4.4.0.1 Ejemplo
Nodo Raz: 4. Clculo de probabilidades y variables
Siguiente: 4.6 Operaciones bsicas con sucesos aleatorios
Previo: 4.2 introduccin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 4. Clculo de probabilidades y variables
Siguiente: 4.8 Experimentos aleatorios y probabilidad
Previo: 4.4 Experimentos y sucesos aleatorios

4.6 Operaciones bsicas con sucesos


aleatorios
Al ser los sucesos aleatorios nada ms que subconjuntos de un conjunto E --espacio muestral--,
podemos aplicarles las conocidas operaciones con conjuntos, como son la unin, interseccin y
diferencia:

4.6.0.0.0.1 Unin:

Dados dos sucesos aleatorios , se denomina suceso unin de A y B al conjunto formado


por todos los sucesos elementales que pertenecen a A o bien que pertenecen a B (incluyendo los que
estn en ambos simultneamente), es decir

Como ejemplo, tenemos que la unin de un suceso cualquiera con su complementario es el suceso
seguro:

Volviendo al ejemplo del lanzamiento de un dado, si y , el suceso


unin de A y B es:
4.6.0.0.0.2 Interseccin:

Dados dos sucesos aleatorios , se denomina suceso interseccin de A y B al conjunto


formado por todos los sucesos elementales que pertenecen a A y B a la vez, es decir,

A veces por comodidad se omite el smbolo para denotar la interseccin de conjuntos, sobre todo
cuando el nmero de conjuntos que intervienen en la expresin es grande. En particular podremos
usar la siguiente notacin como equivalente a la interseccin:

Un ejemplo de interseccin es la de un suceso aleatorio cualquiera, , con su complementario,

, que es el suceso imposible:

Volviendo al ejemplo del dado,

4.6.0.0.0.3 Diferencia:

Dados dos sucesos aleatorios , se llama suceso diferencia de A y B, y se representa


mediante , o bien A-B, al suceso aleatorio formado por todos los sucesos elementales que
pertenecen a A, pero no a B:

Obsrvese que el suceso contrario de un suceso A, puede escribirse como la diferencia del suceso
seguro menos ste, o sea,

4.6.0.0.0.4 Diferencia simtrica:

Si , se denomina suceso diferencia simtrica de A y B, y se representa mediante ,


al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A y no a B, y los que
estn en By no en A:

As:

Figura:Dados dos sucesos aleatorios se representa: en (a) ; en


(b) ; en (c) A-B; en (d) .

Hay ciertas propiedades que relacionan la unin, interseccin y suceso contrario, que son conocidas
bajo el nombre de Leyes de Morgan:

4.6.0.0.0.1 Unin:
4.6.0.0.0.2 Interseccin:
4.6.0.0.0.3 Diferencia:
4.6.0.0.0.4 Diferencia simtrica:

Nodo Raz: 4. Clculo de probabilidades y variables


Siguiente: 4.8 Experimentos aleatorios y probabilidad
Previo: 4.4 Experimentos y sucesos aleatorios

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 4. Clculo de probabilidades y variables
Siguiente: 4.8.2 Probabilidad de Laplace
Previo: 4.6 Operaciones bsicas con sucesos aleatorios

4.8 Experimentos aleatorios y probabilidad


Se denominan experimentos deterministas aquellos que realizados de una misma forma y con las
mismas condiciones iniciales, ofrecen siempre el mismo resultado. Como ejemplo, tenemos que un
objeto de cualquier masa partiendo de un estado inicial de reposo, y dejado caer al vaco desde una
torre, llega siempre al suelo con la misma velocidad: 4.1

Cuando en un experimento no se puede predecir el resultado final, hablamos de experimento


aleatorio. Este es el caso cuando lanzamos un dado y observamos su resultado.

En los experimentos aleatorios se observa que cuando el nmero de experimentos aumenta, las
frecuencias relativas con las que ocurre cierto suceso e, f (e),
n

tiende a converger hacia cierta cantidad que denominamos probabilidad de e.

4.8.0.1 Ejemplo

En la Figura 4.3 se presenta la evolucin de la frecuencia relativa del nmero de caras obtenido en el
lanzamiento de una moneda en 100 ocasiones (simulado por un ordenador). En principio la evolucin
de las frecuencias relativas es errtica, pero a medida que el nmero de tiradas aumenta, tiende a lo
que entendemos por probabilidad de cara.

Figura:Convergencia a 1/2 de la frecuencia relativa del nmero de caras obtenido en lanzamientos


sucesivos de una moneda (simulacin en ordenador).

Esta es la nocin frecuentista de probabilidad. Sin embargo esta definicin no se puede utilizar en
la prctica pues:

se requiere realizar un nmero infinito de veces un experimento para calcular una


probabilidad. Por ejemplo, lanzar infinitas veces un dado para ver que las frecuencias relativas
de la aparicin de cada cara convergen a 1/6. Esto puede suplirse en la prctica realizando el
experimento un nmero suficientemente elevado de veces, hasta que tengamos la precisin
que requieran nuestros clculos. Sin embargo,

los experimentos aleatorios a veces no pueden ser realizados, como es el caso de calcular la
probabilidad de morir jugando a la ruleta rusa con un revolver: no es posible (o no se debe)
calcular esta probabilidad repitiendo el experimento un nmero indefinidamente alto de veces
para aproximarla mediante la frecuencia relativa). Para ello existen mtodos mucho ms
seguros, como los que mencionaremos a continuacin.
4.8.0.1 Ejemplo
4.8.2 Probabilidad de Laplace
4.8.2.1 Ejemplo

4.8.4 Definicin axiomtica de probabilidad


4.8.4.1 Concepto de -lgebra de sucesos
4.8.4.2 Concepto axiomtico de probabilidad

4.8.4.3 Observacin

Nodo Raz: 4. Clculo de probabilidades y variables


Siguiente: 4.8.2 Probabilidad de Laplace
Previo: 4.6 Operaciones bsicas con sucesos aleatorios

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 4. Clculo de probabilidades y variables
Siguiente: 4.12 Ciertos teoremas fundamentales del clculo
Previo: 4.8.4 Definicin axiomtica de probabilidad

4.10 Probabilidad condicionada e


independencia de sucesos
Sea un suceso aleatorio de probabilidad no nula, . Para cualquier otro suceso

, llamamos probabilidad condicionada de A a B a la cantidad que representamos mediante

o bien y que se calcula como:

4.10.0.1 Ejemplo

Se lanza un dado al aire Cul es la probabilidad de que salga el nmero 4? Si sabemos que el
resultado ha sido un nmero par, se ha modificado esta probabilidad?

Solucin:

El espacio muestral que corresponde a este experimento es

y se ha de calcular la probabilidad del suceso . Si el dado no est trucado, todos los


nmeros tienen la misma probabilidad de salir, y siguiendo la definicin de probabilidad de Laplace,
Obsrvese que para calcular la probabilidad de A segn la definicin de Laplace hemos tenido que
suponer previamente que todos los elementos del espacio muestral tienen la misma probabilidad de
salir, es decir:

Por otro lado, si ha salido un nmero par, de nuevo por la definicin de probabilidad de Laplace
tendramos

Esta misma probabilidad se podra haber calculado siguiendo la definicin de la probabilidad


condicionada, ya que si escribimos

y entonces
que por supuesto coincide con el mismo valor que calculamos usando la definicin de probabilidad
de Laplace.

4.10.0.2 Observacin

Obsrvese que segn la definicin de probabilidad condicionada, se puede escribir la probabilidad de


la interseccin de dos sucesos de probabilidad no nula como

O sea, la probabilidad de la interseccin de dos sucesos, es la probabilidad de uno cualquiera de ellos,


multiplicada por la probabilidad del segundo sabiendo que ha ocurrido el primero.

Si entre dos sucesos no existe ninguna relacin cabe esperar que la expresin ``sabiendo que'' no
aporte ninguna informacin. De este modo introducimos el concepto de independencia de dos
sucesos A y B como:

Esta relacin puede ser escrita de modo equivalente, cuando dos sucesos son de probabilidad no nula
como
4.10.0.1 Ejemplo
4.10.0.2 Observacin

Nodo Raz: 4. Clculo de probabilidades y variables


Siguiente: 4.12 Ciertos teoremas fundamentales del clculo
Previo: 4.8.4 Definicin axiomtica de probabilidad

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 4. Clculo de probabilidades y variables
Siguiente: 4.14 Tests diagnsticos
Previo: 4.10 Probabilidad condicionada e independencia de

4.12 Ciertos teoremas fundamentales del


clculo de probabilidades
Hay algunos resultados importantes del clculo de probabilidades que son conocidos bajo los
nombres de teorema de la probabilidad compuesta, teorema de la probabilidad total y teorema de
Bayes. Veamos cuales son estos teoremas, pero previamente vamos a enunciar a modo de
recopilacin, una serie de resultados elementales cuya demostracin se deja como ejercicio para el
lector (algunos ya han sido demostrados anteriormente):

4.12.0.1 Proposicin

Sean no necesariamente disjuntos. Se verifican entonces las siguientes propiedades:

1.
Probabilidad de la unin de sucesos:

2.
Probabilidad de la interseccin de sucesos:

3.
Probabilidad del suceso contrario:

4.
Probabilidad condicionada del suceso contrario:

4.12.0.2 Ejemplo

En una universidad el 50% de los alumnos habla ingls, el 20% francs y el 5% los dos idiomas
Cul es la probabilidad de encontrar alumnos que hablen alguna lengua extranjera?

Solucin:

Sea A el suceso hablar ingls: .

Sea B el suceso hablar francs: .

El suceso hablar francs e ingls es : .

As:

4.12.0.3 Ejemplo

En una estacin de esqu, para navidad-es, la experiencia indica que hay un tiempo soleado slo el
de los das. Por otro lado, se ha calculado que cuando un da es soleado, hay una probabilidad
del 20% de que el da posterior tambin lo sea. Calcular la probabilidad de que, en navidades, un fin
de semana completo sea soleado.

Solucin: Llamemos S al suceso sbado soleado y D al suceso domingo soleado. La nica manera en
que un fin de semana completo sea soleado es que lo sea en primer lugar el sbado, y que el domingo
posterior tambin. Es decir:
Luego slo el de los fines de semana son soleados.

El primero de los teoremas que vamos a enunciar es una generalizacin de la probabilidad de la


interseccin de dos sucesos, a la de un nmero cualquiera pero finito de ellos:

4.12.0.4 Teorema (Probabilidad compuesta)

Sea una coleccin de sucesos aleatorios. Entonces:

Demostracin

Los teoremas que restan nos dicen como calcular las probabilidades de sucesos cuando tenemos que
el suceso seguro est descompuesto en una serie de sucesos incompatibles de los que conocemos su
probabilidad. Para ello necesitamos introducir un nuevo concepto: Se dice que la coleccin
es un sistema exhaustivo y excluyente de sucesos si se verifican las
relaciones (vase la figura 4.5):

Figura: A1,A2,A3,A4 forman un sistema exhaustivo y


excluyente se sucesos.
4.12.0.5 Teorema (Probabilidad total)

Sea un sistema exhaustivo y excluyente de sucesos. Entonces

Demostracin

Obsrvese la Figura 4.6. De ah realizamos las siguientes operaciones:

Figura:Si A1,A2,A3,A4 forma un sistema exhaustivo y


excluyente se sucesos, podemos calcular la
probabilidad de B a partir de las cantidades
, o lo que es lo mismo,
4.12.0.6 Ejemplo

Se tienen dos urnas, y cada una de ellas contiene un nmero diferente de bolas blancas y rojas:

Primera urna, U1: 3 bolas blancas y 2 rojas;

Segunda urna, U2: 4 bolas blancas y 2 rojas.

Se realiza el siguiente experimento aleatorio:


Se tira una moneda al aire y si sale cara se elige una bola de la primera urna, y si sale
cruz de la segunda.

Cul es la probabilidad de que salga una bola blanca?

Solucin: La situacin que tenemos puede ser esquematizada como

U1

U2

Como U1 y U2 forman un sistema incompatible y excluyente de sucesos (la bola resultado debe
provenir de una de esas dos urnas y de una slo de ellas), el teorema de la probabilidad total nos
permite afirmar entonces que

4.12.0.7 Teorema (Bayes)

Sea un sistema exhaustivo y excluyente de sucesos. Sea un suceso


del que conocemos todas las cantidades , , a las que denominamos
verosimilitudes. entonces se verifica:

Demostracin
Es una consecuencia de la definicin de probabilidad condicionada en trminos de la interseccin, y
del teorema de la probabilidad total:

4.12.0.8 Ejemplo

Se tienen tres urnas. Cada una de ellas contiene un nmero diferente de bolas blancas y rojas:

Primera urna, U1: 3 bolas blancas y 2 rojas;


Segunda urna, U2: 4 bolas blancas y 2 rojas;
Tercera urna, U3: 3 bolas rojas.

Se realiza el siguiente experimento aleatorio:

Alguien elije al azar y con la misma probabilidad una de las tres urnas, y saca una bola.

Si el resultado del experimento es que ha salido una bola blanca, cul es la probabilidad de que
provenga de la primera urna? Calcular lo mismo para las otras dos urnas.

Solucin:

Vamos a representar en un esquema los datos de que disponemos:


U1

U2

U3

En este caso U1, U2 y U3 forman un sistema incompatible y excluyente de sucesos (la bola resultado
debe provenir de una de esas tres urnas y de una slo de ellas), por tanto es posible aplicar el teorema
de Bayes:
Con respecto a las dems urnas hacemos lo mismo:

4.12.0.9 Observacin

Obsrvese que en el ejemplo anterior, antes de realizar el experimento aleatorio de extraer una bola
para ver su resultado, tenamos que la probabilidad de elegir una urna i cualquiera es . Estas
probabilidades se denominan probabilidades a priori. Sin embargo, despus de realizar el
experimento, y observar que el resultado del mismo ha sido la extraccin de una bola blanca, las
probabilidades de cada urna han cambiado a . Estas cantidades se denominan
probabilidades a posteriori. Vamos a representar en una tabla la diferencia entre ambas:

a priori a posteriori

1 1

Las probabilidades a priori cambian


de tal modo de las a posteriori que
una vez observado el resultado del
experimento aleatorio, se puede
afirmar con certeza que no fue
elegida la tercera urna.

Esta fenmeno tiene aplicaciones fundamentales en Ciencia: Cuando se tienen dos teoras cientficas
diferentes, T1 y T2, que pretenden explicar cierto fenmeno, y a las que asociamos unas
probabilidades a priori de ser ciertas,

podemos llevar a cabo la experimentacin que se considere ms conveniente, para una vez obtenido
el cuerpo de evidencia, B, calcular como se modifican las probabilidades de verosimilitud de cada
teora mediante el teorema de Bayes:
As la experimentacin puede hacer que una teora sea descartada si o reforzada si

. Una aplicacin bsica de esta tcnica la tenemos en Medicina para decidir si un


paciente padece cierta enfermedad o no, en funcin de los resultados de un test diagnstico.

4.12.0.1 Proposicin
4.12.0.2 Ejemplo
4.12.0.3 Ejemplo
4.12.0.4 Teorema (Probabilidad compuesta)
4.12.0.5 Teorema (Probabilidad total)
4.12.0.6 Ejemplo
4.12.0.7 Teorema (Bayes)
4.12.0.8 Ejemplo
4.12.0.9 Observacin

Nodo Raz: 4. Clculo de probabilidades y variables


Siguiente: 4.14 Tests diagnsticos
Previo: 4.10 Probabilidad condicionada e independencia de

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 4. Clculo de probabilidades y variables
Siguiente: 4.16 Problemas
Previo: 4.12 Ciertos teoremas fundamentales del clculo

4.14 Tests diagnsticos


Los tests diagnsticos son una aplicacin del teorema de Bayes a la Medicina, y se basan en lo siguiente:

1.
Se sospecha que un paciente puede padecer cierta enfermedad, que tiene una incidencia de la
enfermedad en la poblacin (probabilidad de que la enfermedad la padezca una persona elegida al
azar) de ;
2.
Como ayuda al diagnstico de la enfermedad, se le hace pasar una serie de pruebas (tests), que dan
como resultado:
+
Positivo, T , si la evidencia a favor de que el paciente est enfermo es alta en funcin de estas

pruebas;
-
Negativo, T , en caso contrario.

Previamente, sobre el test diagnstico a utilizar, han debido ser estimadas las cantidades:

Sensibilidad:
Es la probabilidad de el test de positivo sobre una persona que sabemos que padece la
enfermedad, .

Especificidad:
Es la probabilidad que el test de negativo sobre una persona que no la padece, .

La sensibilidad y especificidad se denominan tambin respectivamente tasa de verdaderos positivos


y tasa de verdaderos negativos. Estas cantidades son calculadas de modo aproximado, antes de
utilizar el test diagnstico, considerando grupos suficientemente numerosos de personas de las que
sabemos si padecen la enfermedad o no, y estimando los porcentajes correspondientes. Por ejemplo
se toman 100 personas sanas y 100 enfermas, y se observa que

T+ 89 3
T- 11 97

100 100

Tasa de verdaderos positivos: 89%


Tasa de falsos positivos: 3%
Tasa de verdaderos negativos: 97%
Tasa de falsos negativos: 11%

3.
teniendo en cuenta el resultado del test diagnstico, se utiliza el teorema de Bayes para ver cual es, a
la vista de los resultados obtenidos, la probabilidad de que realmente est enfermo si le dio positivo
(ndice predictivo de verdaderos positivos),

o la de que est sano si le dio negativo (ndice predictivo de verdaderos negativos):

4.14.0.1 Ejemplo

Con el objeto de diagnosticar la colelietasis se usan los ultrasonidos. Tal tcnica tiene una sensibilidad del
91% y una especificidad del 98%. En la poblacin que nos ocupa, la probabilidad de colelietasis es de 0,2.

1.
Si a un individuo de tal poblacin se le aplican los ultrasonidos y dan positivos, cul es la
probabilidad de que sufra la colelietasis?
2.
Si el resultado fuese negativo, cul sera la probabilidad de que no tenga la enfermedad?

Solucin:

Vamos a utilizar la siguiente notacin:


Padecer la enfermedad (colelietasis);
No padecer la enfermedad;
El resultado del test es positivo;
El resultado del test es negativo;

Los datos de que disponemos son las probabilidades condicionadas

y la incidencia de la enfermedad en la poblacin

En el primer apartado se pide calcular el ``ndice Predictivo de Verdaderos Positivos'', , que por el
teorema de Bayes es:

En el segundo apartado, se ha de calcular el ``ndice Predictivo de Verdaderos Negativos'', ,

Este problema puede ser resuelto de otro modo, utilizando tablas bidimensionales e identificando las
probabilidades con las frecuencias relativas de la siguiente tabla

T+

T-

de modo que se puede calcular como la probabilidad condicionada de E sobre la primera fila (T
+):
4.14.0.1 Ejemplo

Nodo Raz: 4. Clculo de probabilidades y variables


Siguiente: 4.16 Problemas
Previo: 4.12 Ciertos teoremas fundamentales del clculo

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 4. Clculo de probabilidades y variables
Siguiente: 5. Variables aleatorias
Previo: 4.14 Tests diagnsticos

4.16 Problemas
Ejercicio 4..1. Una mujer portadora de hemofilia clsica da a luz tres hijos.

1.
Cual es la probabilidad de que de los tres hijos, ninguno est afectado por la enfermedad?

2.
Cual es la probabilidad de que exactamente dos de los tres nios est afectado?

Ejercicio 4..2. El 60% de los individuos de una poblacin estn vacunados contra una cierta
enfermedad. Durante una epidemia se sabe que el 20% la ha contrado y que 2 de cada 100 individuos
estn vacunados y son enfermos. Calcular el porcentaje de vacunados que enferma y el de vacunados
entre los que estn enfermos..

Ejercicio 4..3. La proporcin de alcohlicos que existe en la poblacin de Mlaga es,


aproximadamente, un 10%; no obstante, en las bajas que dan los mdicos de la Seguridad Social
difcilmente se encuentra el diagnstico de alcoholismo. Aparecen sin embargo diagnosticados de
hepatopatas, lumbalgias, etc., que pueden hacer sospechar alcoholismo subyacente. Se realiz un
estudio que puso de manifiesto que el 85% de los individuos alcohlicos y el 7% de los no
alcohlicos sufran tales patologas. Se desea saber cul es la probabilidad de que un individuo con
esas patologas sea realmente alcohlico.

Ejercicio 4..4. Dos tratamientos A y B curan una determinada enfermedad en el 20% y 30% de los
casos, respectivamente. Suponiendo que ambos actan de modo independiente, cul de las dos
siguientes estrategias utilizara para curar a un individuo con tal enfermedad:

1.
Aplicar ambos tratamientos a la vez.

2.
Aplicar primero el tratamiento B y, si no surte efecto, aplicar el A.

Ejercicio 4..5. Se eligen al azar 3 deportistas de un equipo de 10 integrantes para realizar un control
antidopaje; Se sabe que 2 de los jugadores del equipo han tomado sustancias prohibidas. Cul es la
probabilidad de elegir para el anlisis a alguno de los infractores?
Ejercicio 4..6. Estamos interesados en saber cul de dos anlisis A y B es mejor para el diagnstico
de una determinada enfermedad, de la cual sabemos que la presentan un 10% de individuos de la
poblacin. El porcentaje de resultados falsos positivos del anlisis A es del 15% y el de B es del 22%.
El porcentaje de falsos negativos de A es del 7% y de B es del 3%. Cul es la probabilidad de
acertar en el diagnstico con cada mtodo?

Ejercicio 4..7. Con objeto de diagnosticar la colelitiasis se usan los ultrasonidos. Tal tcnica tiene
una sensibilidad del 91% y una especificidad del 98%. En la poblacin que nos ocupa la probabilidad
de colelitiasis es del 20%.

1.
Si a un individuo de tal poblacin se le aplican los ultrasonidos y dan positivos, cul es la
probabilidad de que sufra la colelitiasis?

2.
Si el resultado fuese negativo, cul es la probabilidad de que no tenga la enfermedad?

Ejercicio 4..8. Entre los estudiantes de una Facultad de Filosofa y Letras se dan las siguientes
proporciones: el 40% son hombres. El 70% de los varones fuman, mientras que entre las mujeres slo
fuman el 20%. Escogido un estudiante al azar, calclese la probabilidad de que fume.

Ejercicio 4..9. Los estudios epidemiolgicos indican que el 20% de los ancianos sufren un deterioro
neuropsicolgico. Sabemos que la tomografa axial computerizada (TAC) es capaz de detectar este
trastorno en el 80% de los que lo sufren, pero que tambin da un 3% de falsos positivos entre
personas sanas. Si tomamos un anciano al azar y da positivo en el TAC, cul es la probabilidad de
que est realmente enfermo?

Ejercicio 4..10. Sabemos que tiene estudios superiores el 15% de la poblacin espaola, estudios
medios el 40%, estudios primarios el 35% y no tiene estudios el 10%. Los desempleados no se
distribuyen proporcionalmente entre esas categoras, dado que de entre los de estudios superiores
estn sin trabajo el 10%, entre los de estudios medios el 35%, entre los de estudios primarios el 18%,
y entre los que no tienen estudios el 37%. Obtenga las probabilidades de que extrado uno al azar,
ste sea:

1.
Titulado superior, sabiendo que est parado.

2.
Un sujeto sin estudios que est en paro.

3.
Un sujeto con estudios primarios o que est trabajando.

Ejercicio 4..11. Una enfermedad puede estar producida por tres virus A, B, y C. En el laboratorio hay
3 tubos de ensayo con el virus A, 2 tubos con el virus B y 5 tubos con el virus C. La probabilidad de
que el virus A produzca la enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el
virus C es de 1/7. Se inocula un virus a un animal y contrae la enfermedad. Cul es la probabilidad
de que el virus que se inocule sea el C?

Ejercicio 4..12. El 70% de los estudiantes aprueba una asignatura A y un 60% aprueba otra
asignatura B. Sabemos, adems, que un 35% del total aprueba ambas. Elegido un estudiante al azar,
calcular las probabilidades de las siguientes situaciones:

1.
Haya aprobado la asignatura B, sabiendo que ha aprobado la A.

2.
Haya aprobado la asignatura B, sabiendo que no no ha aprobado la A.

3.
No haya aprobado la asignatura B, sabiendo que ha aprobado la A.

4.
No haya aprobado la asignatura B, sabiendo que no ha aprobado la A.

Ejercicio 4..13. La cuarta parte de los conductores de coche son mujeres. La probabilidad de que una
mujer sufra un accidente en un ao es de 5/10.000, y para los hombres es de 1/10.000. Calclese la
probabilidad de que si acaece un accidente, el accidentado sea hombre.

Ejercicio 4..14. En un campus universitario existen 3 carreras sanitarias. Se sabe que el 50% cursan
estudios de Enfermera, el 30% Medicina y el 20% Veterinaria. Los que finalizaron sus estudios son
el 20, 10 y 5% respectivamente. Elegido un estudiante al azar, hllese la probabilidad de que haya
acabado la carrera.

Nodo Raz: 4. Clculo de probabilidades y variables


Siguiente: 5. Variables aleatorias
Previo: 4.14 Tests diagnsticos

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: Bioestadstica: Mtodos y Aplicaciones
Siguiente: 5.2 Introduccin
Previo: 4.16 Problemas

5. Variables aleatorias

5.2 Introduccin
5.2.0.1 Observacin

5.2.0.2 Observacin

5.4 Variables aleatorias discretas


5.4.0.1 Observacin

5.4.0.2 Proposicin (Distribuciones discretas)

5.6 Variables aleatorias continuas


5.6.0.1 Observacin

5.6.0.2 Observacin

5.6.0.3 Proposicin

5.6.2 Cambio de variable

5.6.2.1 Proposicin

5.8 Medidas de tendencia central y dispersin de v.a.


5.8.2 Valor esperado o esperanza matemtica

5.8.2.1 Observacin

5.8.4 Varianza

5.8.4.1 Ejemplo

5.8.4.2 Ejemplo

5.8.4.3 Ejemplo

5.8.6 Momentos de una v.a.

5.8.8 Desigualdad de Tchebycheff y v.a. tipificadas

5.8.8.1 Teorema (Thebycheff)

5.8.10 Funcin caracterstica

5.8.10.1 Teorema (Fourier)

5.8.10.2 Proposicin

5.8.10.3 Proposicin

5.8.10.4 Teorema

5.8.10.5 Proposicin
ste texto es la versin electrnica del manual de la Universidad de Mlaga:
Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 5. Variables aleatorias
Siguiente: 5.4 Variables aleatorias discretas
Previo: 5. Variables aleatorias

5.2 Introduccin
Normalmente, los resultados posibles (espacio muestral E) de un experimento aleatorio no son
valores numricos. Por ejemplo, si el experimento consiste en lanzar de modo ordenado tres monedas
al aire, para observar el nmero de caras ( ) y cruces ( ) que se obtienen, el espacio muestral
asociado a dicho experimento aleatorio sera:

En estadstica resulta ms fcil utilizar valores numricos en lugar de trabajar directamente con los
elementos de un espacio muestral como el anterior. As preferimos identificar los sucesos
con el valor numrico 1 que representa el nmero de caras obtenidas al
realizar el experimento. De este modo aparece el concepto de variable aleatoria unidimensional
como el de toda funcin

que atribuye un nico nmero real x , a cada suceso elemental e, del espacio muestral E5.1.
e

Por ejemplo, en el ejemplo anterior, se define la variable aleatoria5.2

del siguiente modo:


5.2.0.1 Observacin

La variable X no recibe el calificativo de aleatoria por el hecho de que atribuya de modo


imprevisible un valor cualquiera a un elemento ya que este valor est definido de
forma precisa (determinstica). Lo que es aleatorio en realidad, es que al hacer el experimento,
no sabemos qu elemento de E puede ocurrir.

=1.00mm

La composicin de una funcin real5.3 con una variable es tambin variable aleatoria, pues
est definida sobre Ey a cada elemento suyo le asocia un valor real.

En funcin de los valores que tome la variable, esta puede ser clasificada en discreta o continua del
siguiente modo:
v.a. discreta
es aquella que slo puede tomar un nmero finito o infinito numerable de valores. Por
ejemplo,

v.a. continua
es la que puede tomar un nmero infinito no numerable de valores.

5.2.0.2 Observacin

Si sobre los elementos de E existe una distribucin de probabilidad, esta se transmite a los valores
que toma la variable X. Es decir, toda v.a. conserva la estructura probabilstica del experimento
aleatorio que describe, en el sentido de que si es la funcin de probabilidad definida sobre el
espacio muestral E, sta induce otra funcin definida sobre , de forma que conserva los
valores de las probabilidades (figura 5.1):

Figura:Una v.a. transmite la estructura probabilstica del espacio


muestral a .
De ahora en adelante omitiremos el asterisco y no diferenciaremos entre las probabilidades calculadas
sobre el espacio muestral del experimento aleatorio original, E, y las calculadas sobre .

Vamos a estudiar los conceptos ms importantes relacionados con la distribucin de probabilidad de


una v.a., diferenciando entre los casos de v.a. discreta y v.a. continua.

5.2.0.1 Observacin
5.2.0.2 Observacin

Nodo Raz: 5. Variables aleatorias


Siguiente: 5.4 Variables aleatorias discretas
Previo: 5. Variables aleatorias

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 5. Variables aleatorias
Siguiente: 5.6 Variables aleatorias continuas
Previo: 5.2 Introduccin

5.4 Variables aleatorias discretas


Dada una v.a. discreta , su funcin de probabilidad f, se define de modo que f(x )
i
es la probabilidad de que X tome ese valor:

Si x no es uno de los valores que puede tomar X, entonces f(x )=0. La representacin grfica de la
i i
funcin de probabilidad se realiza mediante un diagrama de barras anlogo al de distribucin de
frecuencias relativas para variables discretas (figura 5.3). Por ejemplo, si retomamos el caso del
lanzamiento de 3 monedas de forma que cada una de ellas tenga probabilidad 1/2 de dar como
resultado cara o cruz, se tiene que (vase la figura 5.2):
Figura:Equivalencia entre las probabilidades calculadas directamente sobre el
espacio muestral E de resultados del experimento aleatorio, y las calculadas sobre
el subconjunto mediante la v.a. X.

5.4.0.1 Observacin

Obsrvese que X est definido sobre el espacio muestral de sucesos E, mientras que f lo est sobre el
espacio de nmeros reales .

Las propiedades de la funcin de probabilidad de v.a. se deducen de forma inmediata de los axiomas
de probabilidad:

Es evidente que si tenemos tres constantes a<b<c, los sucesos y

son mutuamente exclusivos, es decir, , luego .


Por ello, si se define , se tiene que

Otro concepto importante es el de funcin de distribucin de una variable aleatoria discreta, F, que
se define de modo que si , F(x ) es igual a la probabilidad de que X tome un valor inferior o
i
igual a x :
i

Esta funcin se representa grficamente del mismo modo que la distribucin de frecuencias relativas
acumuladas (figura 5.3). Volviendo al ejemplo de las tres monedas, se tiene que
Hay que observar que a valores no admisibles por la variable les pueden corresponder valores de F no
nulos. Por ejemplo,

Figura:Funcin de probabilidad a la izquierda, y funcin de distribucin a la derecha


de una v.a. discreta

Es sencillo comprobar que las siguientes propiedades de la funcin de distribucin son ciertas:

5.4.0.2 Proposicin (Distribuciones discretas)

La funcin de distribucin F, es una funcin no decreciente, es decir,

Adems, es continua a la derecha

y
5.4.0.1 Observacin
5.4.0.2 Proposicin (Distribuciones discretas)

Nodo Raz: 5. Variables aleatorias


Siguiente: 5.6 Variables aleatorias continuas
Previo: 5.2 Introduccin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 5. Variables aleatorias
Siguiente: 5.6.2 Cambio de variable
Previo: 5.4 Variables aleatorias discretas

5.6 Variables aleatorias continuas


Si una variable discreta toma los valores x1, ..., x , la proposicin de la pgina afirma que las
k
probabilidad de que al hacer un experimento, X tome uno de esos valores es 1, de modo que cada
posible valor x contribuye con una cantidad f(x ) al total:
i i

Aun cuando la variable tomase un nmero infinito de valores, x1, x2, ..., no hay ningn problema en
comprobar que cada x contribuye con una cantidad f(x ) al total de modo que
i i

Cuando la variable es continua, no tiene sentido hacer una suma de las probabilidades de cada uno de
los trminos en el sentido anterior, ya que el conjunto de valores que puede tomar la variable es no
numerable. En este caso, lo que generaliza de modo natural el concepto de suma ( ) es el de

integral ( ). Por otro lado, para variables continuas no tiene inters hablar de la probabilidad de que

, ya que esta debe de valer siempre 0, para que la suma infinita no numerable de las
probabilidades de todos los valores de la variable no sea infinita.

De este modo es necesario introducir un nuevo concepto que sustituya en v.a. continuas, al de funcin
de probabilidad de una v.a. discreta. Este concepto es el de funcin de densidad de una v.a.
continua, que se define como una funcin integrable, que verifica las dos
propiedades siguientes:
y que adems verifica que dado a<b, se tiene que

Figura:Funcin de densidad f. La probabilidad de un intervalo, es el rea que existe entre la


funcin y el eje de abscisas.

5.6.0.1 Observacin

Por ser f una funcin integrable, la probabilidad de un punto es nula:

y por ello al calcular la probabilidad de un intervalo no afectara nada el que este sea abierto o cerrado
por cualquiera de sus extremos, pues estos son puntos y por tanto de probabilidad nula:

La funcin de distribucin de la v.a. continua, F, se define de modo que dado , F(x) es la


probabilidad de que X sea menor o igual que x, es decir

Figura:Funcin de distribucin F, calculada a partir de la funcin de densidad f.

5.6.0.2 Observacin

Dado un intervalo de la forma (a,b], tenemos que


Es decir, la cantidad F(b) - F(a) representa la masa de probabilidad extendida a lo largo de dicho
intervalo. Si dividimos esta cantidad por la longitud del intervalo,

tenemos la masa media de probabilidad por unidad de longitud en (a,b], es decir, su densidad media
de probabilidad. Si hacemos tender a hacia b, , la cantidad

es la densidad de probabilidad del punto b (que como hemos mencionado no se ha de confundir con
la probabilidad de b).

5.6.0.3 Proposicin

Distribuciones continuas La funcin de distribucin F, es no decreciente

Adems, es una funcin absolutamente continua que verifica:

Demostracin

Los sucesos
y

son mutuamente exclusivos, siendo su unin el suceso . Por tanto

El resto es evidente pues por la relacin (5.1)

y por otro lado

5.6.0.1 Observacin
5.6.0.2 Observacin
5.6.0.3 Proposicin
5.6.2 Cambio de variable
5.6.2.1 Proposicin
Nodo Raz: 5. Variables aleatorias
Siguiente: 5.6.2 Cambio de variable
Previo: 5.4 Variables aleatorias discretas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: Bioestadstica: Mtodos y Aplicaciones
Siguiente: 6.2 Introduccin
Previo: 5.8.10 Funcin caracterstica

6. Principales leyes de distribucin de variables


aleatorias

6.2 Introduccin
6.4 Distribuciones discretas
6.4.2 Distribucin de Bernoulli

6.4.2.1 Observacin

6.4.4 Distribucin binomial

6.4.4.1 Ejemplo

6.4.6 Distribucin geomtrica ( o de fracasos)

6.4.6.1 Observacin

6.4.6.2 Observacin

6.4.6.3 Ejemplo

6.4.6.4 Observacin

6.4.8 Distribucin binomial negativa

6.4.8.1 Ejemplo

6.4.8.2 Observacin

6.4.10 Distribucin hipergeomtrica

6.4.10.1 Observacin

6.4.12 Distribucin de Poisson (o de los sucesos raros)

6.4.12.1 Ejemplo

6.6 Reproductividad de familias de v.a.


6.8 Distribuciones continuas
6.8.2 Distribucin uniforme o rectangular

6.8.4 Distribucin exponencial

6.8.4.1 Ejemplo

6.8.4.2 Ejemplo

6.8.6 Distribucin normal o gaussiana

6.8.6.1 Observacin

6.8.6.2 Observacin
6.8.6.3 Proposicin (Cambio de origen y escala)
6.8.6.4 Ejemplo
6.8.6.5 Proposicin
6.8.6.6 Aproximacin a la normal de la ley binomial
6.8.6.7 Ejemplo
6.8.6.8 Ejemplo
6.8.8 Distribucin
6.8.8.1 Observacin
6.8.8.2 Ejemplo

6.8.8.3 Teorema (Cochran)

6.8.10 Distribucin de Student


6.8.12 La distribucin de Snedecor
6.10 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 6. Principales leyes de distribucin de
Siguiente: 6.4 Distribuciones discretas
Previo: 6. Principales leyes de distribucin de

6.2 Introduccin
Como complemento al captulo anterior en el que definimos todos los conceptos relativos a variables
aleatorias, describimos en ste las principales leyes de probabilidad que encontramos en las
aplicaciones del clculo de probabilidades. Atendiendo a la clasificacin de las v.a. en discretas y
continuas describiremos las principales leyes de probabilidad de cada una de ellas, las cuales
constituirn el soporte subyacente de la inferencia estadstica y a las que ser necesario hacer
referencia en el estudio de dicho bloque. Iniciamos este captulo con el estudio de las distribuciones
para v.a. discretas.

Nodo Raz: 6. Principales leyes de distribucin de


Siguiente: 6.4 Distribuciones discretas
Previo: 6. Principales leyes de distribucin de

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 6. Principales leyes de distribucin de
Siguiente: 6.4.2 Distribucin de Bernoulli
Previo: 6.2 Introduccin

6.4 Distribuciones discretas

6.4.2 Distribucin de Bernoulli


6.4.2.1 Observacin

6.4.4 Distribucin binomial


6.4.4.1 Ejemplo

6.4.6 Distribucin geomtrica ( o de fracasos)


6.4.6.1 Observacin

6.4.6.2 Observacin

6.4.6.3 Ejemplo

6.4.6.4 Observacin

6.4.8 Distribucin binomial negativa


6.4.8.1 Ejemplo

6.4.8.2 Observacin

6.4.10 Distribucin hipergeomtrica


6.4.10.1 Observacin

6.4.12 Distribucin de Poisson (o de los sucesos raros)


6.4.12.1 Ejemplo

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 6. Principales leyes de distribucin de
Siguiente: 6.8 Distribuciones continuas
Previo: 6.4.12 Distribucin de Poisson (o de

6.6 Reproductividad de familias de v.a.


Las variables aleatorias relacionadas entre si por uno o ms parmetros mediante f, o lo que es
equivalente segn el teorema de Fourier (pgina ), mediante su funcin caracterstica, las hemos
agrupado en familias de v.a. que hemos denotado de modo genrico . Para cualquier tipo

de familia de v.a. , diremos que esta reproductiva respecto al parmetro p, si al considerar

independientes, donde se tiene que la suma de todas

ellas es una v.a. de la misma familia, pero con parmetro

Por ejemplo no es reproductiva con respecto a p, ya que la suma de dos v.a. de esa familia

no sigue una distribucin de Bernouilli. Sin embargo la familia lo es con respecto al


parmetro , ya que
Un modo sencillo de ver si una familia de distribuciones es reproductiva con respecto a algn
parmetro es analizar su funcin caracterstica utilizando el teorema de la pgina . Por ejemplo el
mismo resultado se puede obtener para la distribucin binomial teniendo en cuenta que

Utilizando el mismo argumento, tenemos que otra distribuciones reproductiva es .

Nodo Raz: 6. Principales leyes de distribucin de


Siguiente: 6.8 Distribuciones continuas
Previo: 6.4.12 Distribucin de Poisson (o de

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 6. Principales leyes de distribucin de
Siguiente: 6.8.2 Distribucin uniforme o rectangular
Previo: 6.6 Reproductividad de familias de v.a.

6.8 Distribuciones continuas


En esta seccin estudiaremos las distribuciones ms importantes de v.a. continuas unidimensionales.
El soporte de una v.a. continua se define como aquella regin de donde su densidad es no nula,
. Para las distribuciones que enunciaremos, podr ser bien todo , o

bien un segmento de la forma .

6.8.2 Distribucin uniforme o rectangular


6.8.4 Distribucin exponencial
6.8.4.1 Ejemplo

6.8.4.2 Ejemplo

6.8.6 Distribucin normal o gaussiana


6.8.6.1 Observacin

6.8.6.2 Observacin

6.8.6.3 Proposicin (Cambio de origen y escala)

6.8.6.4 Ejemplo

6.8.6.5 Proposicin

6.8.6.6 Aproximacin a la normal de la ley binomial

6.8.6.7 Ejemplo

6.8.6.8 Ejemplo

6.8.8 Distribucin
6.8.8.1 Observacin
6.8.8.2 Ejemplo

6.8.8.3 Teorema (Cochran)

6.8.10 Distribucin de Student


6.8.12 La distribucin de Snedecor
ste texto es la versin electrnica del manual de la Universidad de Mlaga:
Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 6. Principales leyes de distribucin de
Siguiente: I. Inferencia estadstica
Previo: 6.8.12 La distribucin de Snedecor

6.10 Problemas
Ejercicio 6..1. Para estudiar la regulacin hormonal de una lnea metablica se inyectan ratas albinas
con un frmaco que inhibe la sntesis de protenas del organismo. En general, 4 de cada 20 ratas
mueren a causa del frmaco antes de que el experimento haya concluido. Si se trata a 10 animales con
el frmaco, cul es la probabilidad de que al menos 8 lleguen vivas al final del experimento?

Ejercicio 6..2. En una cierta poblacin se ha observado un nmero medio anual de muertes por
cncer de pulmn de 12. Si el nmero de muertes causadas por la enfermedad sigue una distribucin
de Poisson, cul es la probabilidad de que durante el ao en curso:

1.
Haya exactamente 10 muertes por cncer de pulmn?

2.
15 o ms personas mueran a causa de la enfermedad?

3.
10 o menos personas mueran a causa de la enfermedad?

Ejercicio 6..3. Daando los cromosomas del vulo o del espermatozoide, pueden causarse
mutaciones que conducen a abortos, defectos de nacimiento, u otras deficiencias genticas. La
probabilidad de que tal mutacin se produzca por radiacin es del 10%. De las siguientes 150
mutaciones causadas por cromosomas daados, cuntas se esperara que se debiesen a radiaciones?
Cul es la probabilidad de que solamente 10 se debiesen a radiaciones?

Ejercicio 6..4. Entre los diabticos, el nivel de glucosa en sangre X, en ayunas, puede suponerse de
distribucin aproximadamente normal, con media 106 mg/100 ml y desviacin tpica 8 mg/100 ml, es
decir

1.
Hallar
2.
Qu porcentaje de diabticos tienen niveles comprendidos entre 90 y 120 ?

3.
Hallar .

4.
Hallar .

5.
Hallar el punto x caracterizado por la propiedad de que el 25% de todos los diabticos tiene un
nivel de glucosa en ayunas inferior o igual a x.

Ejercicio 6..5. Una prueba de laboratorio para detectar herona en sangre tiene un 92% de precisin.
Si se analizan 72 muestras en un mes, cul es la probabilidad de que:

1.
60 o menos estn correctamente evaluadas?

2.
menos de 60 estn correctamente evaluadas?

3.
exactamente 60 estn correctamente evaluadas?

Ejercicio 6..6. El 10% de las personas tiene algn tipo de alergia. Se seleccionan aleatoriamente 100
individuos y se les entrevista. Hallar la probabilidad de que, al menos, 12 tengan algn tipo de
alergia. Hallar la probabilidad de que, como mximo, 8 sean alrgicos a algo.

Ejercicio 6..7. La probabilidad de muerte resultante del uso de pldoras anticonceptivas es de


3/100.000. De 1.000.000 de mujeres que utilizan este medio de control de natalidad:

1.
Cuntas muertes debidas a esta causa se esperan?
2.
Cul es la probabilidad de que haya, como mximo, 25 de estas muertes?
3.
Cul es la probabilidad de que el nmero de muertes debidas a esta causa est entre 25 y 35,
inclusive?

Ejercicio 6..8. La probabilidad de presentar una caracterstica gentica es de 1/20.


1.
Tomando una muestra de 8 individuos, calcular la probabilidad de que 3 individuos presenten
la caracterstica.

2.
Tomando una muestra de 80 personas, cul ser la probabilidad de que aparezcan ms de 5
individuos con la caracterstica?

Ejercicio 6..9. Se supone que en una cierta poblacin humana el ndice ceflico i, (cociente entre el
dimetro transversal y el longitudinal expresado en tanto por ciento), se distribuye segn una Normal.
El 58% de los habitantes son dolicocfalos (i 75), el 38% son mesocfalos (75 < i 80) y el 4%
son braquicfalos (i > 80). Hllese la media y la desviacin tpica del ndice ceflico en esa
poblacin.

Ejercicio 6..10. Se supone que la glucemia basal en individuos sanos, X sigue una distribucin
s

mientras que en los diabticos X , sigue una distribucin


d

Si se conviene en clasificar como sanos al 2% de los diabticos:

1.
Por debajo de qu valor se considera sano a un individuo? Cuntos sanos sern clasificados
como diabticos?

2.
Se sabe que en la poblacin en general el 10% de los individuos son diabticos cul es la
probabilidad de que un individuo elegido al azar y diagnosticado como diabtico, realmente lo
sea?

Ejercicio 6..11. Supngase que se van a utilizar 20 ratas en un estudio de agentes coagulantes de la
sangre. Como primera experiencia, se dio un anticoagulante a 10 de ellos, pero por inadvertencia se
pusieron todas sin marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase del
estudio y se les tom al azar sin reemplazamiento. Cul es la probabilidad de que de las 12 elegidas
6 tengan la droga y 6 no la tengan?
Nodo Raz: 6. Principales leyes de distribucin de
Siguiente: I. Inferencia estadstica
Previo: 6.8.12 La distribucin de Snedecor

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Siguiente: 7.2 Introduccin
Previo: I. Inferencia estadstica

7. Introduccin a la inferencia

7.2 Introduccin
7.4 Tcnicas de muestreo sobre una poblacin
7.4.2 Muestreo aleatorio

7.4.2.1 Muestreo aleatorio sin reposicin

7.4.2.2 Muestreo aleatorio con reposicin

7.4.2.3 Tablas de nmeros aleatorios: Lotera Nacional

7.4.2.4 Mtodo de Montecarlo

7.4.2.5 Ejemplo

7.4.4 Muestreo aleatorio estratificado

7.4.4.1 Ejemplo

7.4.4.2 Asignacin proporcional

7.4.4.3 Asignacin ptima

7.4.4.4 Teorema

7.4.6 Muestreo sistemtico

7.4.6.1 Observacin

7.4.8 Muestreo por conglomerados

7.6 Propiedades deseables de un estimador


7.6.0.1 Ejemplo

7.6.2 Carencia de sesgo

7.6.4 Consistencia

7.6.4.1 Teorema

7.6.6 Eficiencia

7.6.8 Suficiencia

7.6.8.1 Teorema

7.6.10 Estimadores de mxima verosimilitud

7.6.12 Algunos estimadores fundamentales

7.6.12.1 Estimador de la esperanza matemtica

7.6.12.2 Proposicin

7.6.12.3 Estimador de la varianza


7.6.12.4 Proposicin
7.6.12.5 Proposicin
7.6.12.6 Cuasivarianza muestral

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 7. Introduccin a la inferencia
Siguiente: 7.4 Tcnicas de muestreo sobre una
Previo: 7. Introduccin a la inferencia

7.2 Introduccin
El propsito de un estudio estadstico suele ser, como hemos venido citando, extraer conclusiones
acerca de la naturaleza de una poblacin. Al ser la poblacin grande y no poder ser estudiada en su
integridad en la mayora de los casos, las conclusiones obtenidas deben basarse en el examen de
solamente una parte de sta, lo que nos lleva, en primer lugar a la justificacin, necesidad y
definicin de las diferentes tcnicas de muestreo.

Los primeros trminos obligados a los que debemos hacer referencia, definidos en el primer captulo,
sern los de estadstico y estimador.

Dentro de este contexto, ser necesario asumir un estadstico o estimador como una variable aleatoria
con una determinada distribucin, y que ser la pieza clave en las dos amplias categoras de la
inferencia estadstica: la estimacin y el contraste de hiptesis.

El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una serie de


propiedades que nos servirn para elegir el ``mejor" para un determinado parmetro de una
poblacin, as como algunos mtodos para la obtencin de ellos, tanto en la estimacin puntual como
por intervalos.

Cmo deducir la ley de probabilidad sobre determinado carcter de una poblacin cuando slo
conocemos una muestra?

Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la relacin entre
el fumar y el cncer de pulmn e intentamos extender las conclusiones obtenidas sobre una muestra
al resto de individuos de la poblacin.

La tarea fundamental de la estadstica inferencial, es hacer inferencias acerca de la poblacin a partir


de una muestra extrada de la misma.

Nodo Raz: 7. Introduccin a la inferencia


Siguiente: 7.4 Tcnicas de muestreo sobre una
Previo: 7. Introduccin a la inferencia
ste texto es la versin electrnica del manual de la Universidad de Mlaga:
Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 7. Introduccin a la inferencia
Siguiente: 7.4.2 Muestreo aleatorio
Previo: 7.2 Introduccin

7.4 Tcnicas de muestreo sobre una poblacin


La teora del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribucin
de un carcter en dicha poblacin y las distribuciones de dicho carcter en todas sus muestras.

Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:

* Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea parte del total de la
poblacin, los gastos de recogida y tratamiento de los datos sern menores. Por ejemplo,
cuando se realizan encuestas previas a un referndum, es ms barato preguntar a 4.000
personas su intencin de voto, que a 30.000.000;

* Mayor rapidez:
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las primeras mesas
electorales, se obtiene una aproximacin bastante buena del resultado final de unas elecciones,
muchas horas antes de que el recuento final de votos haya finalizado;

* Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de bombillas, no
es posible en la prctica destruirlas todas para conocer su vida media, ya que no quedara nada
que vender. Es mejor destruir slo una pequea parte de ellas y sacar conclusiones sobre las
dems.

De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos problemas:

Eleccin de la muestra (muestreo), que es a lo que nos dedicaremos en este captulo.


Extrapolacin de las conclusiones obtenidas sobre la muestra, al resto de la poblacin
(inferencia).

El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los elementos de la


poblacin tienen la misma probabilidad de ser extrados; Aunque dependiendo del problema y con el
objetivo de reducir los costes o aumentar la precisin, otros tipos de muestreo pueden ser
considerados como veremos ms adelante: muestreo sistemtico, estratificado y por conglomerados.
7.4.2 Muestreo aleatorio
7.4.2.1 Muestreo aleatorio sin reposicin

7.4.2.2 Muestreo aleatorio con reposicin

7.4.2.3 Tablas de nmeros aleatorios: Lotera Nacional

7.4.2.4 Mtodo de Montecarlo

7.4.2.5 Ejemplo

7.4.4 Muestreo aleatorio estratificado


7.4.4.1 Ejemplo

7.4.4.2 Asignacin proporcional

7.4.4.3 Asignacin ptima

7.4.4.4 Teorema

7.4.6 Muestreo sistemtico


7.4.6.1 Observacin

7.4.8 Muestreo por conglomerados

Nodo Raz: 7. Introduccin a la inferencia


Siguiente: 7.4.2 Muestreo aleatorio
Previo: 7.2 Introduccin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 7. Introduccin a la inferencia
Siguiente: 7.6.2 Carencia de sesgo
Previo: 7.4.8 Muestreo por conglomerados

7.6 Propiedades deseables de un estimador


Sea X una v.a. cuya funcin de probabilidad (o densidad de probabilidad si es continua) depende de
unos parmetros desconocidos.

Representamos mediante una muestra aleatoria simple de la variable. Denotamos


mediante f a la funcin de densidad conjunta de la muestra, que por estar formada por observaciones
c
independientes, puede factorizarse del siguiente modo:

Se denomina estimador de un parmetro , a cualquier v.a. que se exprese en funcin de la

muestra aleatoria y que tenga por objetivo aproximar el valor de ,

Obsrvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende
unvocamente de los valores de la muestra observados (X =x ), la eleccin de la muestra es un proceso
i i
aleatorio. Una vez que la muestra ha sido elegida, se denomina estimacin el valor numrico que toma
el estimador sobre esa muestra.

Intuitivamente, las caractersticas que seran deseables para esta nueva variable aleatoria (que
usaremos para estimar el parmetro desconocido) deben ser:

* Consistencia
Cuando el tamao de la muestra crece arbitrariamente, el valor estimado se aproxima al
parmetro desconocido.
* Carencia de sesgo
El valor medio que se obtiene de la estimacin para diferentes muestras debe ser el valor del
parmetro.
* Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra cualquiera se obtenga como
estimacin el valor exacto del parmetro. Sin embargo podemos pedirle que su dispersin con
respecto al valor central (varianza) sea tan pequea como sea posible.
* Suficiencia
El estimador debera aprovechar toda la informacin existente en la muestra.

A continuacin vamos a enunciar de modo ms preciso y estudiar cada una de esas caractersticas.

7.6.0.1 Ejemplo

Consideremos una v.a. de la que slo conocemos que su ley de distribucin es gaussiana,

Para muestras aleatorias de tamao n=3,

un posible estimador del parmetro es

Si al realizar un muestreo aleatorio simple obtenemos


Hemos dicho que el estimador sirve para aproximar el valor de un parmetro desconocido, pero... si el
parmetro es desconocido cmo podemos decir que un estimador dado sirve para aproximarlo? As
pues, es necesario que definamos en qu sentido un estimador es bueno para cierto parmetro.

7.6.0.1 Ejemplo
7.6.2 Carencia de sesgo
7.6.4 Consistencia
7.6.4.1 Teorema

7.6.6 Eficiencia
7.6.8 Suficiencia
7.6.8.1 Teorema

7.6.10 Estimadores de mxima verosimilitud


7.6.12 Algunos estimadores fundamentales
7.6.12.1 Estimador de la esperanza matemtica

7.6.12.2 Proposicin

7.6.12.3 Estimador de la varianza

7.6.12.4 Proposicin

7.6.12.5 Proposicin

7.6.12.6 Cuasivarianza muestral

Nodo Raz: 7. Introduccin a la inferencia


Siguiente: 7.6.2 Carencia de sesgo
Previo: 7.4.8 Muestreo por conglomerados

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Siguiente: 8.2 Introduccin
Previo: 7.6.12 Algunos estimadores fundamentales

8. Estimacin confidencial

8.2 Introduccin
8.4 Intervalos de confianza para la distribucin normal
8.4.2 Intervalo para la media si se conoce la varianza

8.4.4 Intervalo para la media (caso general)

8.4.4.1 Ejemplo

8.4.6 Intervalo de confianza para la varianza

8.4.6.1 Ejemplo

8.4.8 Estimacin del tamao muestral

8.4.8.1 Ejemplo

8.4.10 Intervalos para la diferencia de medias de dos poblaciones

8.4.10.1 Intervalo para la diferencia de medias homocedticas

8.4.10.2 Ejemplo

8.6 Intervalos de confianza para variables dicotmicas


8.6.2 Intervalo para una proporcin

8.6.2.1 Ejemplo

8.6.4 Eleccin del tamao muestral para una proporcin

8.6.4.1 Ejemplo

8.6.6 Intervalo para la diferencia de dos proporciones

8.8 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 8. Estimacin confidencial
Siguiente: 8.4 Intervalos de confianza para la
Previo: 8. Estimacin confidencial

8.2 Introduccin
La estimacin confidencial consiste en determinar un posible rango de valores o intervalo, en los
que pueda precisarse --con una determinada probabilidad-- que el valor de un parmetro se encuentra
dentro de esos lmites. Este parmetro ser habitualmente una proporcin en el caso de variables
dicotmicas, y la media o la varianza para distribuciones gaussianas.

La tcnica de la estimacin confidencial consiste en asociar a cada muestra un intervalo que se


sospecha que debe contener al parmetro. A ste se le denomina intervalo de confianza

Evidentemente esta tcnica no tiene porqu dar siempre un resultado correcto. A la probabilidad de
que hayamos acertado al decir que el parmetro estaba contenido en dicho intervalo se la denomina
nivel de confianza. Tambin se denomina nivel de significacin a la probabilidad de equivocarnos.

Nodo Raz: 8. Estimacin confidencial


Siguiente: 8.4 Intervalos de confianza para la
Previo: 8. Estimacin confidencial

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 8. Estimacin confidencial
Siguiente: 8.4.2 Intervalo para la media si
Previo: 8.2 Introduccin

8.4 Intervalos de confianza para la distribucin


normal
Dada una variable aleatoria de distribucin gaussiana, , nos interesamos en primer

lugar, en calcular intervalos de confianza para sus dos parmetros, y .

He aqu un resumen de las situaciones que consideraremos:

* Intervalo para la media si se conoce la varianza:


Este no es un caso prctico (no se puede conocer sin conocer previamente ), pero sirve
para introducirnos en el problema de la estimacin confidencial de la media;

* Intervalos de confianza para la media (caso general):


Este se trata del caso con verdadero inters prctico. Por ejemplo sirve para estimar intervalos
que contenga la media del colesterol en sangre en una poblacin, la altura, el peso, etc, cuando
disponemos de una muestra de la variable.

* Intervalo de confianza para la varianza:


ste es otro caso de inters en las aplicaciones. El objetivo es calcular un intervalo de
confianza para , cuando slo se dispone de una muestra.

* Estimacin de tamao muestral


La utilidad consiste en decidir cul deber ser el tamao necesario de una muestra para
obtener intervalos de confianza para una media, con precisin y significacin dadas de
antemano. Para que esto sea posible es necesario poseer cierta informacin previa, que se
obtiene a partir de las denominadas muestras piloto.

Ms adelante, consideramos el caso en que tenemos dos poblaciones donde cada una sigue su propia
ley de distribucin y . Los problemas asociados a este caso son
* Diferencia de medias homocedticas
Se realiza el clculo del intervalo de confianza suponiendo que ambas variables tienen la
misma varianza, es decir son homocedticas. En la prctica se usa este clculo, cuando ambas
variables tienen parecida dispersin.

* Diferencia de medias (caso general)


Es el mismo caso que el anterior, pero se realiza cuando se observa que hay diferencia notable
en la dispersin de ambas variables.

8.4.2 Intervalo para la media si se conoce la varianza


8.4.4 Intervalo para la media (caso general)
8.4.4.1 Ejemplo

8.4.6 Intervalo de confianza para la varianza


8.4.6.1 Ejemplo

8.4.8 Estimacin del tamao muestral


8.4.8.1 Ejemplo

8.4.10 Intervalos para la diferencia de medias de dos poblaciones


8.4.10.1 Intervalo para la diferencia de medias homocedticas

8.4.10.2 Ejemplo

Nodo Raz: 8. Estimacin confidencial


Siguiente: 8.4.2 Intervalo para la media si
Previo: 8.2 Introduccin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 8. Estimacin confidencial
Siguiente: 8.6.2 Intervalo para una proporcin
Previo: 8.4.10 Intervalos para la diferencia de

8.6 Intervalos de confianza para variables


dicotmicas
Cuando tenemos una variable dicotmica (o de Bernoulli) a menudo interesa saber en qu proporcin
de casos, p, ocurre el xito en la realizacin de un experimento. Tambin nos puede interesar el
comparar la diferencia existente entre las proporciones en distintas poblaciones. Tambin es de
inters calcular para un nivel de significacin dado, el tamao muestral necesario para calcular un
intervalo de confianza de cuyo radio sea menor que cierta cantidad.

8.6.2 Intervalo para una proporcin


8.6.2.1 Ejemplo

8.6.4 Eleccin del tamao muestral para una proporcin


8.6.4.1 Ejemplo

8.6.6 Intervalo para la diferencia de dos proporciones

Nodo Raz: 8. Estimacin confidencial


Siguiente: 8.6.2 Intervalo para una proporcin
Previo: 8.4.10 Intervalos para la diferencia de

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 8. Estimacin confidencial
Siguiente: 9. Contrastes de hiptesis
Previo: 8.6.6 Intervalo para la diferencia de

8.8 Problemas
Ejercicio 8..1. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos sanos,
obtenindose

0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.

Cuanto vale la produccin diaria media de bilis en individuos sanos suponiendo que la muestra ha
sido obtenida por muestreo aleatorio simple sobre una poblacin normal?

Ejercicio 8..2. La cantidad mnima requerida para que un anestsico surta efecto en una intervencin
quirrgica fue por trmino medio de 50 mg, con una desviacin tpica de 10,2 mg, en una muestra de
60 pacientes. Obtener un intervalo de confianza para la media al 99%, suponiendo que la muestra fue
extrada mediante muestreo aleatorio simple sobre una poblacin normal.

Ejercicio 8..3. Un investigador est interesado en estimar la proporcin de muertes debidas a cncer
de estmago en relacin con el nmero de defunciones por cualquier tipo de neoplasia. Su
experiencia le indica que sera sorprendente que tal proporcin supere el valor de 1/3. Qu tamao
de muestra debe tomar para estimar la anterior proporcin, con una confianza del 99%, para que el
valor estimado no difiera del valor real en ms de 0,03?.

Ejercicio 8..4. Se desea realizar una estimacin confidencial de la varianza de la estatura de los nios
varones de 10 aos de una ciudad con una confianza del 95%. Cul ser dicho intervalo si se toma
una muestra de 101 nios al azar, entre todos los que renen las caractersticas deseadas, y medimos
sus estaturas, y se obtienen las siguientes estimaciones puntuales: ,

Ejercicio 8..5. Un cardilogo se encuentra interesado en encontrar lmites de confianza al 90%, para
la presin sistlica tras un cierto ejercicio fsico. Obtenerlos si en 50 individuos se obtuvo ,
y suponemos que el comportamiento de la v.a. es normal.

Ejercicio 8..6. En una muestra de 25 bebs varones de 12 semanas de vida, se obtuvo un peso medio
de 5.900 gr y una desviacin tpica de 94 gr.
1.
Obtener un intervalo de confianza (al 95%) para el peso medio poblacional.

2.
Cuntos nios habra que tomar para estimar dicha media con una precisin de 15 gr?

Ejercicio 8..7. En un determinado servicio de odontologa se sabe que el 22% de las visitas llevan
consigo una extraccin dentaria inmediata. En cierto ao, de 2.366 visitas, 498 dieron lugar a una
extraccin inmediata. Entran en contradiccin las cifras de ese ao con el porcentaje establecido de
siempre?

Ejercicio 8..8. Slo una parte de los pacientes que sufren un determinado sndrome neurolgico
consiguen una curacin completa; Si de 64 pacientes observados se han curado 41, dar una
estimaciones puntual y un intervalos de la proporcin de los que sanan. Qu nmero de enfermos
habra que observar para estimar la proporcin de curados con un error inferior a 0,05 y una
confianza del 95%?

Ejercicio 8..9. Se desea estimar el tiempo medio de sangra en fumadores de ms de 20 cigarrillos


diarios, con edades comprendidas entre 35 y 40 aos, con una precisin de 5 segundos. Ante la
ausencia de cualquier informacin acerca de la variabilidad del tiempo de sangra es este tipo de
individuos, se tom una muestra preliminar de 5 individuos, en los que se obtuvieron los siguientes
tiempos (en segundos):

97, 80, 67, 91, 73.

Determinar el tamao mnimo de muestra, al 95%, para cumplir el objetivo anterior.

Ejercicio 8..10. En una determinada regin se tom una muestra aleatoria de 125 individuos, de los
cuales 12 padecan afecciones pulmonares.

1.
Estmese la proporcin de afecciones pulmonares en dicha regin.

2.
Si queremos estimar dicha proporcin con un error mximo del 4%, para una confianza del
95%, qu tamao de muestra debemos tomar?

Ejercicio 8..11. En una muestra de tabletas de aspirinas, de las cuales observamos su peso expresado
en gramos, obtenemos:

1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2

Suponiendo la Normalidad para esta distribucin de pesos, determinar un intervalo al 80% de


confianza para la varianza.
Ejercicio 8..12. Se quiere estimar la incidencia de la hipertensin arterial en el embarazo. Cuantas
embarazadas tenemos que observar para, con una confianza del 95%, estimar dicha incidencia con un
error del 2% en los siguientes casos:

1.
Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.

2.
Sin ninguna informacin previa.

Nodo Raz: 8. Estimacin confidencial


Siguiente: 9. Contrastes de hiptesis
Previo: 8.6.6 Intervalo para la diferencia de

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Siguiente: 9.2 Introduccin
Previo: 8.8 Problemas

9. Contrastes de hiptesis

9.2 Introduccin
9.2.0.1 Ejemplo

9.2.2 Observaciones

9.4 Contrastes paramtricos en una poblacin normal


9.4.2 Contrastes para la media

9.4.2.1 Test de dos colas con varianza conocida

9.4.2.2 Tests de una cola con varianza conocido

9.4.2.3 Test de dos colas con varianza desconocida

9.4.2.4 Observacin

9.4.2.5 Tests de una cola con varianza desconocido

9.4.2.6 Ejemplo

9.4.2.7 Ejemplo

9.4.4 Contrastes para la varianza

9.4.4.1 Contraste bilateral

9.4.4.2 Contrastes unilaterales

9.6 Contrastes de una proporcin


9.6.0.1 Contraste bilateral

9.6.0.2 Contrastes unilaterales

9.8 Contrastes para la diferencia de medias apareadas


9.8.0.1 Contraste bilateral

9.8.0.2 Contrastes unilaterales

9.8.0.3 Observacin

9.10 Contrastes de dos distribuciones normales independientes


9.10.2 Contraste de medias con varianzas conocidas

9.10.2.1 Contraste bilateral

9.10.2.2 Contrastes unilaterales

9.10.4 Contraste de medias homocedticas

9.10.4.1 Contraste bilateral

9.10.4.2 Contrastes unilaterales


9.10.6 Contraste de medias no homocedticas
9.10.6.1 Observacin

9.10.8 Contrastes de la razn de varianzas

9.10.8.1 Contraste bilateral

9.10.8.2 Contrastes unilaterales

9.10.10 Caso particular: Contraste de homocedasticidad

9.10.10.1 Observacin

9.10.10.2 Observacin

9.10.10.3 Ejemplo

9.12 Contrastes sobre la diferencia de proporciones


9.12.0.1 Contraste bilateral

9.12.0.2 Contrastes unilaterales

9.14 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 9.2.2 Observaciones
Previo: 9. Contrastes de hiptesis

9.2 Introduccin
Pueden presentarse en la prctica, situaciones en las que exista una teora preconcebida relativa a la
caracterstica de la poblacin sometida a estudio. Tal sera el caso, por ejemplo si pensamos que un
tratamiento nuevo puede tener un porcentaje de mejora mayor que otro estndar, o cuando nos
planteamos si los nios de las distintas comunidades espaolas tienen la misma altura. Este tipo de
circunstancias son las que nos llevan al estudio de la parcela de la Estadstica Inferencial que se
recoge bajo el ttulo genrico de Contraste de Hiptesis. Implica, en cualquier investigacin, la
existencia de dos teoras o hiptesis implcitas, que denominaremos hiptesis nula e hiptesis
alternativa, que de alguna manera reflejarn esa idea a priori que tenemos y que pretendemos
contrastar con la ``realidad''. De la misma manera aparecen, implcitamente, diferentes tipos de
errores que podemos cometer durante el procedimiento. No podemos olvidar que, habitualmente, el
estudio y las conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado
exclusivamente en el anlisis de slo una parte de sta. De la probabilidad con la que estemos
dispuestos a asumir estos errores, depender, por ejemplo, el tamao de la muestra requerida.
Desarrollamos en este captulo los contrastes de hiptesis para los parmetros ms usuales que
venimos estudiando en los captulos anteriores: medias, varianzas y proporciones, para una o dos
poblaciones. Los contrastes desarrollados en este captulo se apoyan en que los datos de partida
siguen una distribucin normal.

Los contrastes de significacin se realizan:

suponiendo a priori que la ley de distribucin de la poblacin es conocida.

Se extrae una muestra aleatoria de dicha poblacin.

Si la distribucin de la muestra es ``diferente'' de la distribucin de probabilidad que hemos


asignado a priori a la poblacin, concluimos que probablemente sea errnea la suposicin inicial.

9.2.0.1 Ejemplo

Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo
de Espaa. Antes de tomar una muestra, lo lgico es hacer la siguiente suposicin a priori, (hiptesis
que se desea contrastar y que denotamos H0):

Al obtener una muestra de tamao n=8, podramos encontrarnos ante uno de los siguientes casos:

1.
Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63}
2.
Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78}

Intuitivamente, en el caso a sera lgico suponer que salvo que la muestra obtenida sobre los
habitantes del pueblo sea muy poco representativa9.1, la hiptesis H0 debe ser rechazada. En el caso b
tal vez no podamos afirmar con rotundidad que la hiptesis H0 sea cierta, sin embargo no podramos
descartarla y la admitimos por una cuestin de simplicidad.

Este ejemplo sirve como introduccin de los siguientes conceptos: En un contraste de hiptesis
(tambin denominado test de hiptesis o Contraste de significacin) se decide si cierta hiptesis H0
que denominamos hiptesis nula puede ser rechazada o no a la vista de los datos suministrados por
una muestra de la poblacin. Para realizar el contraste es necesario establecer previamente una
hiptesis alternativa (H1) que ser admitida cuando H0 sea rechazada. Normalmente H1es la
negacin de H0, aunque esto no es necesariamente as.

El procedimiento general consiste en definir un estadstico T relacionado con la hiptesis que


deseamos contrastar. A ste lo denominamos estadstico del contraste. A continuacin suponiendo
que H0 es verdadera se calcula un intervalo de denominado intervalo de aceptacin9.2 de la hiptesis
nula, de manera que al calcular sobre la muestra T=T el criterio a seguir sea:
exp

El intervalo de aceptacin o ms precisamente, de no rechazo de la hiptesis nula, se establece


fijando una cantidad suficientemente pequea denominada nivel de significacin, de modo que la
probabilidad de que el estadstico del contraste tome un valor fuera del mismo -- regin crtica--
cuando la hiptesis nula es cierta sea inferior o al ; Esto se ha de entender como sigue:

Si H0 es correcta el criterio de rechazo slo se equivoca con probabilidad , que es la


probabilidad de que una muestra d un valor del estadstico del contraste extrao
(fuera del intervalo de aceptacin).

La decisin de rechazar o no la hiptesis nula est al fin y al cabo basado en la eleccin de una
muestra tomada al azar, y por tanto es posible cometer decisiones errneas. Los errores que se pueden
cometer se clasifican como sigue:

* Error de tipo I:
Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer este error
es lo que anteriormente hemos denominado nivel de significacin. Es una costumbre
establecida el denotarlo siempre con la letra

* Error de tipo II:


Es el error que consiste en no rechazar H0 cuando es falsa. La probabilidad de cometer este
error la denotamos con la letra

9.2.0.1 Ejemplo
9.2.2 Observaciones

Nodo Raz: 9. Contrastes de hiptesis


Siguiente: 9.2.2 Observaciones
Previo: 9. Contrastes de hiptesis

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 9.4.2 Contrastes para la media
Previo: 9.2.2 Observaciones

9.4 Contrastes paramtricos en una poblacin


normal
Supongamos que la caracterstica X que estudiamos sobre la poblacin sigue una distribucin normal
y tomamos una muestra de tamao n

mediante muestreo aleatorio simple. Vamos a ver cuales son las tcnicas para contrastar hiptesis
sobre los parmetros que rigen X. Vamos a comenzar haciendo diferentes tipos de contrastes para
medias y despus sobre las varianzas y desviaciones tpicas.

9.4.2 Contrastes para la media


9.4.2.1 Test de dos colas con varianza conocida

9.4.2.2 Tests de una cola con varianza conocido

9.4.2.3 Test de dos colas con varianza desconocida

9.4.2.4 Observacin

9.4.2.5 Tests de una cola con varianza desconocido

9.4.2.6 Ejemplo

9.4.2.7 Ejemplo

9.4.4 Contrastes para la varianza


9.4.4.1 Contraste bilateral

9.4.4.2 Contrastes unilaterales

Nodo Raz: 9. Contrastes de hiptesis


Siguiente: 9.4.2 Contrastes para la media
Previo: 9.2.2 Observaciones

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 9.8 Contrastes para la diferencia de
Previo: 9.4.4 Contrastes para la varianza

9.6 Contrastes de una proporcin


Supongamos que poseemos una sucesin de observaciones independientes, de modo que cada una de
ellas se comporta como una distribucin de Bernoulli de parmetro p:

La v.a. X, definida como el nmero de xitos obtenidos en una muestra de tamao n es por definicin
una v.a. de distribucin binomial:

La proporcin muestral (estimador del verdadero parmetro p a partir de la muestra) es

Nos interesamos en el contraste de significacin de

frente a otras hiptesis alternativas. Para ello nos basamos en un estadstico (de contraste) que ya fue
considerado anteriormente en la construccin de intervalos de confianza para proporciones y que
sigue una distribucin aproximadamente normal para tamaos muestrales suficientemente grandes:
Si la hiptesis H0 es cierta se tiene

9.6.0.1 Contraste bilateral

Para el contraste

extraemos una muestra y observamos el valor . Entonces se define

siendo el criterio de aceptacin o rechazo de la hiptesis nula el que refleja la figura 9.12:

Figura:Contraste bilateral de una proporcin.


9.6.0.2 Contrastes unilaterales

Consideremos un contraste del tipo

La figura 9.13 expresa el criterio de aceptacin o rechazo a seguir:

Figura:Contraste unilateral cuando


Para el test unilateral contrario, se tiene la expresin simtrica (cf. figura 9.14):

Luego

Figura:Contraste unilateral cuando se tiene


9.6.0.1 Contraste bilateral
9.6.0.2 Contrastes unilaterales

Nodo Raz: 9. Contrastes de hiptesis


Siguiente: 9.8 Contrastes para la diferencia de
Previo: 9.4.4 Contrastes para la varianza

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 9.10 Contrastes de dos distribuciones normales
Previo: 9.6 Contrastes de una proporcin

9.8 Contrastes para la diferencia de medias


apareadas
Las muestras apareadas aparecen como distintas observaciones realizadas sobre los mismos
individuos. Un ejemplo de observaciones apareadas consiste en considerar a un conjunto de n
personas a las que se le aplica un tratamiento mdico y se mide por ejemplo el nivel de insulina en la
sangre antes (X) y despus del mismo (Y)

Paciente x y d
i i i

1 150 120 30
2 180 130 50
... ... ... ...
n 140 90 50

No es posible considerar a X e Y como variables independientes ya que va a existir una dependencia


clara entre las dos variables. Si queremos contrastar el que los pacientes han experimentado o no una
mejora con el tratamiento, llamemos d a la diferencia entre las observaciones antes y despus del
i
tratamiento

d = x -y
i i i

Supongamos que la v.a. que define la diferencia entre el antes y despus del tratamiento es una v.a. d
que se distribuye normalmente, pero cuyas media y varianza son desconocidas
Si queremos contrastar la hiptesis de que el tratamiento ha producido cierto efecto

en el caso en que H0 fuese cierta tendramos que el estadstico de contraste que nos conviene es

donde es la media muestral de las diferencias d y es la cuasivarianza muestral de las mismas.


i
El tipo de contraste sera entonces del mismo tipo que el realizado para la media con varianza
desconocida.

9.8.0.1 Contraste bilateral

Consideramos el contraste de tipo

Entonces se define

y se rechaza la hiptesis nula cuando .

9.8.0.2 Contrastes unilaterales

Si el contraste es
entonces se rechaza H0 si . Para el test contrario

se rechaza H0 si .

9.8.0.3 Observacin

No supone ninguna dificultad el haber realizado el contraste con conocida, ya que entonces el
estadstico del contraste es

y el tratamiento sera anlogo.

9.8.0.1 Contraste bilateral


9.8.0.2 Contrastes unilaterales
9.8.0.3 Observacin
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 9.10 Contrastes de dos distribuciones normales
Previo: 9.6 Contrastes de una proporcin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 9.10.2 Contraste de medias con varianzas
Previo: 9.8 Contrastes para la diferencia de

9.10 Contrastes de dos distribuciones normales


independientes
Consideramos a lo largo de toda esta seccin a dos poblaciones normales que representamos
mediante

De las que de modo independiente se extraen muestras de tamao respectivo n1 y n2. Los tests que
vamos a realizar estn relacionados con la diferencias existentes entre ambas medias o los cocientes
de sus varianzas.

9.10.2 Contraste de medias con varianzas conocidas


9.10.2.1 Contraste bilateral

9.10.2.2 Contrastes unilaterales

9.10.4 Contraste de medias homocedticas


9.10.4.1 Contraste bilateral

9.10.4.2 Contrastes unilaterales

9.10.6 Contraste de medias no homocedticas


9.10.6.1 Observacin

9.10.8 Contrastes de la razn de varianzas


9.10.8.1 Contraste bilateral
9.10.8.2 Contrastes unilaterales
9.10.10 Caso particular: Contraste de homocedasticidad
9.10.10.1 Observacin

9.10.10.2 Observacin

9.10.10.3 Ejemplo

Nodo Raz: 9. Contrastes de hiptesis


Siguiente: 9.10.2 Contraste de medias con varianzas
Previo: 9.8 Contrastes para la diferencia de

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 9.14 Problemas
Previo: 9.10.10 Caso particular: Contraste de homocedasticidad

9.12 Contrastes sobre la diferencia de


proporciones
Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en la que
estudiamos una variable de tipo dicotmico (Bernoulli):

Si X1 y X2 contabilizan en cada caso el nmero de xitos en cada muestra se tiene que cada una de
ellas se distribuye como una variable aleatoria binomial:

de modo que los estimadores de las proporciones en cada poblacin tienen distribuciones que de un
modo aproximado son normales (cuando n1 y n2 son bastante grandes)
El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada poblacin
es una cantidad conocida

Si H0 fuese cierta se tendra que

Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores, lo que da


lugar a un error que es pequeo cuando los tamaos muestrales son importantes:

9.12.0.1 Contraste bilateral

El contraste bilateral sobre la diferencia de proporciones es


Entonces se define

y se rechaza la hiptesis nula si o si

9.12.0.2 Contrastes unilaterales

En el contraste

se rechazar H0 si . Para el test contrario

se rechaza H0 si .

9.12.0.1 Contraste bilateral


9.12.0.2 Contrastes unilaterales
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 9.14 Problemas
Previo: 9.10.10 Caso particular: Contraste de homocedasticidad

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 10. Contrastes basados en el estadstico
Previo: 9.12 Contrastes sobre la diferencia de

9.14 Problemas
En todos los problemas que siguen a continuacin, se supone que las muestras han sido elegidas de
modo independiente, y que las cantidades cuantitativas que se miden, se distribuyen de modo
gaussiano. En temas posteriores se ver cmo contrastar si estas premisas pueden ser aceptadas o no
al examinar las muestras.

Ejercicio 9..1. El calcio se presenta normalmente en la sangre de los mamferos en concentraciones


de alrededor de 6 mg por cada 100 ml del total de sangre. La desviacin tpica normal de sta
variable es 1 mg de calcio por cada 100 ml del volumen total de sangre. Una variabilidad mayor a
sta puede ocasionar graves trastornos en la coagulacin de la sangre. Una serie de nueve pruebas
sobre un paciente revelaron una media muestral de 6,2 mg de calcio por 100 ml del volumen total de
sangre, y una desviacin tpica muestral de 2 mg de calcio por cada 100 ml de sangre. Hay alguna
evidencia, para un nivel , de que el nivel medio de calcio para este paciente sea ms alto
del normal?

Ejercicio 9..2. El nmero de accidentes mortales en una ciudad es, en promedio, de 12 mensuales.
Tras una campaa de sealizacin y adecentamiento de las vas urbanas se contabilizaron en 6 meses
sucesivos

8, 11, 9, 7, 10 , 9

accidentes mortales. Fue efectiva la campaa?

Ejercicio 9..3. El promedio de las puntuaciones de un nmero elevado de alumnos de Bioestadstica


es de 6,50. Un determinado ao se examinaron 50 alumnos con resultados promedio de 7,25 y
desviacin tpica de 1. Variaron las calificaciones?

Ejercicio 9..4. El peso medio de mujeres de 30 a 40 aos es de 53 kg. Un estudio realizado en 16


mujeres de tales edades que siguen una dieta vegetariana da y . Modifica la dieta el
peso medio?

Ejercicio 9..5. Una poblacin infantil se dice que es susceptible de recibir una campaa de educacin
e higiene si su porcentaje de nios con dientes cariados es superior al . Una poblacin con
12.637 nios, debe hacerse la campaa si de 387 de ellos 70 tenan algn diente cariado?

Ejercicio 9..6. Un 8% de los individuos que acuden a un servicio sanitario son hiperutilizadores del
mismo (ms de 11 visitas al ao) y, de entre ellos, un 70% son mujeres. De entre los no
hiperutilizadores, son mujeres el 51%. Puede afirmarse que han variado los hbitos de estas si, tras
una campaa de informacin y control de visitas, de 90 mujeres elegidas al azar 6 resultaron
hiperutilizadoras?

Ejercicio 9..7. Se conoce que un de los individuos tratados crnicamente con digoxina sufren
una reaccin adversa por causa de ella. A 10 pacientes se les administr durante largo tiempo
digoxina mas otros medicamentos, y de ellos 5 desarrollaron la reaccin adversa. Puede afirmarse
que la asociacin entre la digoxina y los otros medicamentos hace variar el nmero de reacciones
adversas?

Ejercicio 9..8. Para comprobar si un tratamiento con cidos grasos es eficaz en pacientes con eczema
atpico, se tomaron 10 pacientes con eczema de ms de 9 meses y se les someti durante 3 semanas a
un tratamiento ficticio (placebo) y durante las tres siguientes a un tratamiento con cidos grasos. Tras
cada periodo, un mdico ajeno al proyecto evalu la importancia del eczema en una escala de 0 (no
eczema) a 10 (tamao mximo de eczema). Los datos fueron los siguientes:

Placebo 6 8 4 8 5 6 5 6 4 5
Tratamiento 5 6 4 5 3 6 6 2 2 6

Es eficaz el tratamiento?

Ejercicio 9..9. En un programa de Control de Enfermedades Crnicas, la hipertensin est incluida


como la primera patologa a controlar. 15 pacientes hipertensos son sometidos al programa y
controlados en su tensin asistlica antes y despus de 6 meses de tratamiento. Los datos son los
siguientes:

Inic. 180 200 160 170 180 190 190 180 190 160 170 190 200 210 220
Fin. 140 170 160 140 130 150 140 150 190 170 120 160 170 160 150

Es efectivo el tratamiento?

Ejercicio 9..10. Muchos autores afirman que los pacientes con depresin tienen una funcin cortical por
debajo de lo normal debido a un riego sanguneo cerebral por debajo de lo normal. A dos muestras de
individuos, unos con depresin y otros normales, se les midi un ndice que indica el flujo sanguneo en la
materia gris (dado en mg/(100g/min))obtenindose:
Depresivos n1=19

Normales n2=22

Hay evidencia significativa a favor de la afirmacin de los autores?

Ejercicio 9..11. Por fistulizacin se obtuvo el pH de 6 muestras de bilis heptica con los siguientes resultados:

7,83; 8,52; 7,32; 7,79; 7,57; 6,58

Se desea saber al nivel de significacin del 0,05 si la bilis heptica puede considerarse neutra. Si se conociera
, qu decisin tomaramos?

Ejercicio 9..12. La prueba de la d-xilosa permite la diferenciacin entre una esteatorrea originada por una
mala absorcin intestinal y la debida a una insuficiencia pancretica, de modo que cifras inferiores a 4 grs. de
d-xilosa, indican una mala absorcin intestinal. Se realiza dicha prueba a 10 individuos, obtenindose una
media de 3,5 grs. y una desviacin tpica de 0'5 grs. Sepuede decir que esos pacientes padecen una mala
absorcin intestinal?

Ejercicio 9..13. La eliminacin por orina de aldosterona est valorada en individuos normales en 12 mgs/24
h. por trmino medio. En 50 individuos con insuficiencia cardaca se observ una eliminacin media de
aldosterona de 13 mgs/24 h., con una desviacin tpica de 2,5 mgs/24 h.

1.
Son compatibles estos resultados con los de los individuos normales?
2.
La insuficiencia cardaca aumenta la eliminacin por orina de aldosterona?

Ejercicio 9..14. La tabla siguiente muestra los efectos de un placebo y de la hidroclorotiacida sobre la presin
sangunea sistlica de 11 pacientes.

Placebo 211 210 210 203 196 190 191 177 173 170 163
H-cloro 181 172 196 191 167 161 178 160 149 119 156

Segn estos datos experimentales, podemos afirmar que existe diferencia en la presin sistlica media
durante la utilizacin de estos dos frmacos?

Ejercicio 9..15. Se sabe que el 70% de los pacientes internados en un hospital traumatolgico requieren algn
tipo de intervencin quirrgica. Para determinar si un nuevo mtodo de fisioterapia reduce el porcentaje de
intervenciones, se aplica ste a 30 pacientes de los cuales 17 requieren alguna intervencin quirrgica.
Comprobar que no hay razones suficientes para afirmar la eficacia del mtodo con un nivel de confianza del
95%.

Ejercicio 9..16. De un estudio sobre la incidencia de la hipertensin en la provincia de Mlaga, se sabe que en
la zona rural el porcentaje de hipertensos es del 27,7%. Tras una encuesta a 400 personas de una zona urbana,
se obtuvo un 24% de hipertensos.

1.
Se puede decir que el porcentaje de hipertensos en la zona urbana es distinto que en la zona
rural?

2.
Es menor el porcentaje de hipertensos en la zona urbana que en la zona rural?

Ejercicio 9..17. Con cierto mtodo de enseanza para nios subnormales se obtiene una desviacin tpica de
8, en las puntuaciones de los tests finales. Se pone a prueba un nuevo mtodo y se ensaya en 51 nios. Las
calificaciones obtenidas en los tests finales dan una desviacin tpica de 10. Puede asegurarse que el nuevo
mtodo produce distinta variacin en las puntuaciones?

Ejercicio 9..18. Se desea comparar la actividad motora espontnea de un grupo de 25 ratas control y otro de
36 ratas desnutridas. Se midi el nmero de veces que pasaban delante de una clula fotoelctrica durante 24
horas. Los datos obtenidos fueron los siguientes:

Ratas de control n1=25

Ratas desnutridas n2=36

Se observan diferencias significativas entre el grupo control y el grupo desnutrido?

Ejercicio 9..19. Se pretende comprobar la hiptesis expuesta en algunos trabajos de investigacin acerca de
que la presencia del antgeno AG-4 est relacionada con un desenlace Con ste fin, se hizo una revisin sobre
las historias clnicas de 21 mujeres muertas por carcinoma de cuello uterino, observando que 6 de ellas
presentaban el citado antgeno. Por otro lado y con fines de comparacin se tom otra muestra de 42 personas,
con edades similares a las del grupo anterior y que reaccionaron bien al tratamiento del carcinoma de cuello
uterino, en 28 de las cuales se observ la presencia del citado antgeno. Est relacionada la presencia del
antgeno con una efectividad del tratamiento?

Ejercicio 9..20. Se quiso probar si la cirrosis de hgado hacia variar el ndice de actividad de la colinesterasa
en suero. Se eligieron dos muestras aleatorias e independientes de individuos. Los resultados fueron:

Individuos normales n1 = 20

Individuos cirrticos n2=25


La cirrosis de hgado, hace variar el ndice de la colinesterasa en suero?

Ejercicio 9..21. Un investigador ha realizado el siguiente experimento: Tom una primera muestra de 25
pacientes que padecan cierto sntoma y otra segunda muestra de 30 pacientes con el mismo sntoma. A los de
la primera muestra les aplic un tratamiento especifico y a los de la segunda les dio un placebo. Anot el
tiempo en horas en que cada uno dijo que el sntoma haba desaparecido y obtuvo los siguientes resultados:

a n1=25
Muestra 1

a n2=30
Muestra 2

Puede concluir el investigador que el tratamiento es realmente efectivo?

Ejercicio 9..22. Para comprobar si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la edad se
realiz un test oral de glucosa a dos muestras de pacientes sanos, unos jvenes y otros adultos. El test
consisti en medir el nivel de glucosa en sangre en el momento de la ingestin (nivel basal) de 100 grs. de
glucosa y a los 60 minutos de la toma. Los resultados fueron los siguientes:

Jvenes:
Basal 81 89 80 75 74 97 76 89 83 77
60 minutos 136 150 149 141 138 154 141 155 145 147

Adultos:
Basal 98 94 93 88 79 90 86 89 81 90
60 minutos 196 190 191 189 159 185 182 190 170 197

1.
Se detecta una variacin significativa del nivel de glucosa en sangre en cada grupo?

2.
Es mayor la concentracin de glucosa en sangre a los 60 minutos, en adultos que en jvenes?

3.
El contenido basal de glucosa en sangre, es menor en jvenes que en adultos?

4.
Se detecta a los 60 minutos una variacin del nivel de glucosa en sangre diferente de los
adultos, en los jvenes?
Nodo Raz: 9. Contrastes de hiptesis
Siguiente: 10. Contrastes basados en el estadstico
Previo: 9.12 Contrastes sobre la diferencia de

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Siguiente: 10.2 Introduccin
Previo: 9.14 Problemas

10. Contrastes basados en el estadstico Ji-


Cuadrado

10.2 Introduccin
10.4 El estadstico y su distribucin
10.4.0.1 Observacin
10.4.0.2 Observacin

10.4.0.3 Observacin

10.4.0.4 Ejemplo

10.4.0.5 Observacin

10.6 Contraste de bondad de ajuste para distribuciones


10.6.2 Distribuciones de parmetros conocidos

10.6.2.1 Ejemplo

10.6.4 Distribuciones con parmetros desconocidos

10.6.4.1 Contraste de una distribucin binomial

10.6.4.2 Contraste de una distribucin normal

10.6.4.3 Ejemplo

10.8 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 10. Contrastes basados en el estadstico
Siguiente: 10.4 El estadstico y su distribucin
Previo: 10. Contrastes basados en el estadstico

10.2 Introduccin
Existen multitud de situaciones en el mbito de la salud en el que las variables de inters, las cuales no pueden
cuantificarse mediante cantidades numricas, entre las que el investigador est interesado en determinar
posibles relaciones. Ejemplos de este tipo de variables pueden ser las complicaciones tras una intervencin
quirrgica, el sexo, el nivel socio-cultural, etc. En este caso tendramos, a lo sumo, las observaciones
agrupadas en forma de frecuencia, dependiendo de las modalidades que presente cada paciente en cada una de
las variables, por los que los mtodos estudiados en los captulos anteriores no seran aplicables.

El objetivo de este tema es el estudio de este tipo de cuestiones en relacin con las variables cualitativas (y
tambin v.a. discretas o continuas agrupadas en intervalo). Estos son los contrastes asociados con el
estadstico . En general este tipo de tests consisten en tomar una muestra y observar si hay diferencia
significativa entre las frecuencias observadas y las especificadas por la ley terica del modelo que se
contrasta, tambin denominadas ``frecuencias esperadas".

Sin embargo, aunque ste sea el aspecto ms conocido, el uso del test no se limita al estudio de variables
cualitativas. Podramos decir que existen tres aplicaciones bsicas en el uso de este test, y cuyo desarrollo
veremos en el transcurso de este captulo:

Tres son los temas que abordaremos de esta manera:

* Test de ajuste de distribuciones:


Es un contraste de significacin para saber si los datos de una muestra son conformes a una
ley de distribucin terica que sospechamos que es la correcta.

* Test de homogeneidad de varias muestras cualitativas:


Sirve para contrastar la igualdad de procedencia de un conjunto de muestras de tipo
cualitativo.

* Test para tablas de contingencia:


Es un contraste para determinar la dependencia o independencia de caracteres cualitativos.

Nodo Raz: 10. Contrastes basados en el estadstico


Siguiente: 10.4 El estadstico y su distribucin
Previo: 10. Contrastes basados en el estadstico

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 10. Contrastes basados en el estadstico
Siguiente: 10.6 Contraste de bondad de ajuste
Previo: 10.2 Introduccin

10.4 El estadstico y su distribucin


Sea X una v.a. cuyo rango son los valores , de modo que p es la probabilidad de cada valor;
i

Este tipo de v.a. puede corresponder a variables ya estudiadas como es el caso de la distribucin Binomial

pero nosotros vamos a usarla para v.a. ms generales. Supongamos que el resultado de un experimento aleatorio
es una clase c1, c2, ..., c (c , ), que puede representar valores cualitativos, discretos o bien
k i
intervalos para variables continuas. Sea p la probabilidad de que el resultado del experimento sea la clase c .
i i
0
Vamos a considerar contrastes cuyo objetivo es comprobar si ciertos valores p , propuestos para las cantidades p
i i
son correctas o no, en funcin de los resultados experimentales
Mediante muestreo aleatorio simple, se toma una muestra de tamao n y se obtienen a partir de ella unas
frecuencias observadas de cada clase que representamos mediante , , ...,

Clase Frec. Abs.

c
i

c1

c2

... ...

c
k

Supongamos que la hiptesis nula es cierta. Al ser p =p 0 la proporcin de elementos de la clase c en la


i i i
poblacin, el nmero de individuos de que presentan esta modalidad al tomar una muestra de tamao n, es una v.
a. de distribucin binomial, . Por tanto la frecuencia esperada de individuos de esa clase es
Obsrvese que a diferencia de las cantidades , que son las frecuencias que realmente se obtienen en una
muestra, las frecuencias esperadas no tienen por que ser nmeros enteros. De cualquier modo, bajo la suposicin
de que H0 es cierta cabe esperar que las diferencias entre las cantidades y sea pequea.

Pearson propuso el estadstico

el cual, siguiendo la linea de razonamiento anterior debe tomar valores pequeos si H0 es cierta. Si al tomar una
muestra, su valor es grande eso pone en evidencia que la hiptesis inicial es probablemente falsa. Para decidir
cuando los valores de son grandes es necesario conocer su ley de probabilidad. Se tiene entonces el siguiente
resultado

Como slo son los valores grandes de los que nos llevan a rechazar H0, la regin crtica es (vase la figura
10.1

Figura:Regin crtica (sombreada) para un contraste con el estadstico .

es decir,

10.4.0.1 Observacin

A pesar de que el contraste parece ser bilateral al ver la expresin de la relacin (10.1), la forma de , nos indica
que el contraste es unilateral: Slo podemos saber si existe desajuste entre los esperado y lo observado, pero no
podemos contrastar hiptesis alternativas del tipo ``p mayor que cierto valor''.
i

10.4.0.2 Observacin

Obsrvese que en realidad no es una variable aleatoria continua: Los posibles resultados de la muestra se

resumen en las cantidades , , ..., , que nicamente toman valores discretos. Luego las cantidades

slo puede tomar un nmero finito de valores distintos (aunque sean cantidades con decimales). Por tanto su
distribucin no es continua. Luego al realizar la aproximacin mencionada hay que precisar en qu condiciones
el error cometido es pequeo. De modo aproximado podemos enunciar el siguiente criterio que recuerda al de la
aproximacin binomial por la distribucin normal:

1.
n>30;

2.
para todo .

Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la prctica. Se utiliza entonces una
regla ms flexible y que no sacrifica demasiada precisin con respecto a la anterior:

1.
Para ninguna clase ocurre que

2.
para casi todos los , salvo a lo sumo un de ellos.

Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clases que tengan menos
elementos con sus adyacentes.

10.4.0.3 Observacin

El lector puede considerar los contrastes con el estadstico como una generalizacin del contraste de
proporciones. Para ello le invitamos a estudiar el siguiente ejemplo.

10.4.0.4 Ejemplo
Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las mujeres. Para ello se
considera una muestra de n=618 individuos que padecen la enfermedad, y se observa que 341 son hombres y el
resto son mujeres. Qu conclusiones se obtiene de ello?

Solucin:

El contraste a realizar se puede plantear de dos formas que despus veremos que son equivalentes:

* Contraste de una proporcin:


Si p es el porcentaje de hombres en la poblacin de enfermos, podemos considerar el contraste:

De la muestra obtenemos la siguiente estimacin puntual del porcentaje de enfermos de sexo masculino:

Para ver si esto es un valor ``coherente'' con la hiptesis nula, calculemos la significatividad del
contraste:

Por otro lado,

Como el contraste es de tipo bilateral, la significatividad del contraste es (buscando en la tabla de la


distribucin normal):
Lo que nos indica que se ha de rechazar la hiptesis nula y aceptar la hiptesis alternativa, es decir,
afirmamos que existe una evidencia significativa a favor de la hiptesis de que la enfermedad no afecta
por igual a hombres y mujeres.

* Contraste con el estadstico :


En este caso planteamos el contraste:

Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de hombres y mujeres,
junto a los valores esperados en el caso de que la hiptesis nula fuese cierta:

frecuencias frecuencias
observadas esperadas diferencia

Hombres 341 9 322/309

Mujeres 277 -9 (-32)2/309

618 618 0 6,63

Consideremos entonces el estadstico

donde:
k=2es el numero de modalidades posibles que toma la variable sexo: hombres y mujeres;
p=0 es el nmero de parmetros estimados;
h=1 es el nmeros de restricciones impuestas a los valores esperados. Slo hay una (que es
habitual), que consiste en que el nmero esperado de enfermos entre hombres y mujeres es 60.
El estadstico calculado sobre la muestra ofrece el valor experimental:

que es el percentil 99 de la distribucin . De nuevo se obtiene que la significatividad del contraste es


del 1%<5%.

En conclusin, con los dos mtodos llegamos a que hay una fuerte evidencia en contra de que hay el mismo
porcentaje de hobres y mujeres que padecen la enfermedad. La ventaja de la ltima forma de plantear el contraste
(diferencia entre frecuencias observadas y esperadas) es que la tcnica se puede aplicar a casos ms generales que
variables dicotmicas, como se ver ms adelante.

10.4.0.5 Observacin

Hay una frmula alternativa para el clculo de cuya expresin es ms fcil de utilizar cuando realizamos
clculos:

Demostracin
10.4.0.1 Observacin
10.4.0.2 Observacin
10.4.0.3 Observacin
10.4.0.4 Ejemplo
10.4.0.5 Observacin

Nodo Raz: 10. Contrastes basados en el estadstico


Siguiente: 10.6 Contraste de bondad de ajuste
Previo: 10.2 Introduccin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 10. Contrastes basados en el estadstico
Siguiente: 10.6.2 Distribuciones de parmetros conocidos
Previo: 10.4 El estadstico y su distribucin

10.6 Contraste de bondad de ajuste para


distribuciones
Vamos a aplicar el contraste para determinar a travs de una muestra si una v.a. X sigue o no cierta
distribucin. Podemos encontrarnos entonces con dos casos:

La ley de la v.a. X que deseamos contrastar est completamente determinada.


La ley de la v.a. X no es totalmente conocida y es necesario estimar algunos de sus
parmetros.

Figura:En los contrastes de distribuciones, se compara si las observaciones


(histograma) se distribuye segn una ley de probabilidad conocida.
10.6.2 Distribuciones de parmetros conocidos
10.6.2.1 Ejemplo

10.6.4 Distribuciones con parmetros desconocidos


10.6.4.1 Contraste de una distribucin binomial

10.6.4.2 Contraste de una distribucin normal

10.6.4.3 Ejemplo

Nodo Raz: 10. Contrastes basados en el estadstico


Siguiente: 10.6.2 Distribuciones de parmetros conocidos
Previo: 10.4 El estadstico y su distribucin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 10. Contrastes basados en el estadstico
Siguiente: 11. Anlisis de la varianza
Previo: 10.6.4 Distribuciones con parmetros desconocidos

10.8 Problemas
Ejercicio 10..1. Ante la sospecha de que el hbito de fumar de una embarazada puede influir en el peso de su
hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasific a sus hijos en
tres categoras en funcin de su peso en relacin con los percentiles y de la poblacin. El resultado
se expresa en la tabla siguiente:

Peso del nio

Madre fumadora? Menor de Entre y Mayor de

Si 117 529 19
No 124 1147 117

Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra?

Ejercicio 10..2. Varios libros de Medicina Interna recomiendan al mdico la palpacin de la arteria radial con
el fin de evaluar el estado de la pared arterial. Se tomaron 215 pacientes y se les clasific segn la
palpabilidad de dicha arteria (grados 0, 1 y 2 para no palpable, palpable y muy palpable o dura,
respectivamente) y segn una puntuacin de 0 a 4 en orden creciente de degeneracin arterial (evaluada tras
la muerte del paciente y su anlisis anatomo-patolgico). Los datos son los de la tabla siguiente:

Palpabilidad
Degeneracin 0 1 2
0 20 5 5
1 60 20 10
2 45 15 15
3 10 5 5

Existe relacin entre el grado de palpabilidad y el anlisis anatomopatolgico?

Ejercicio 10..3. Se realiz una encuesta a 2979 andaluces para evaluar su opinin acerca de la atencin
recibida en los Ambulatorios de la Seguridad Social, clasificndolos tambin en relacin a sus estudios.
Analizar los datos de la siguiente tabla:

Opinin
Nivel de estudios Buena Regular Mala
Ninguno 800 144 32
Primarios 905 312 67
Bachiller 287 157 44
Medios 95 48 11
Superiores 38 32 7

Ejercicio 10..4. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado
cultivo o si, por el contrario, lo hacen con algn tipo de preferencia (el centro, los extremos, etc...), se divide
un cultivo en 576 reas iguales y se cuenta el nmero de bacterias en cada rea. Los resultados son los
siguientes:

o 0 1 2 3 4 5
n de bacterias
o 229 211 93 35 7 1
n de reas

Obedecen los datos a una distribucin de Poisson?

Ejercicio 10..5. La siguiente tabla recoge la distribucin de los triglicridos en suero, expresados en mg/dl en
90 nios de 6 aos:

Nivel de triglicridos Frecuencias


10 - 20 5
20 - 30 11
30 - 40 15
40 - 50 24
50 - 60 18
60 - 70 12
70 - 80 4
80 - 90 1
Contrastar la hiptesis de que el nivel de triglicridos en nios de 6 aos sigue una distribucin Normal.

Ejercicio 10..6. La distribucin en Andaluca del grupo sanguneo es de un 35%, 10%, 6% y un 49% para los
grupos A, B, AB y O respectivamente. En Mlaga, se realiz el estudio en una muestra de 200 individuos
obtenindose una distribucin del 50%, 30%, 18%, y 10% para los grupos A, B AB y O respectivamente.
Se desea saber si la distribucin del grupo sanguneo en dicha provincia es igual que en Andaluca.

Ejercicio 10..7. En un estudio diseado para determinar la aceptacin por una parte de los pacientes de un
nuevo analgsico, 100 mdicos seleccionaron cada uno de ellos una muestra de 25 pacientes para participar en
el estudio. Cada paciente despus de haber tomado el nuevo analgsico durante un periodo de tiempo
determinado, fue interrogado para saber si prefera ste o el que haba tomado anteriormente con regularidad,
obteniendo los siguientes resultados:

o o o
n de pacientes que n de mdicos que n total de pacientes
prefieren el nuevo obtienen estos que prefieren el
analgsico resultados nuevo analgsico
0 5 0
1 6 6
2 8 16
3 10 30
4 10 40
5 15 75
6 17 102
7 10 70
8 10 80
9 9 81
10 o ms 0 0
Total 100 500

Queremos saber si estos datos se ajustan a una distribucin binomial.

Ejercicio 10..8. Disponemos de una muestra de 250 mujeres mayores de 18 aos, cuyos pesos son los
presentados en la tabla adjunta, y queremos saber si los datos de esta muestra provienen de una distribucin
Normal.

Pesos o
n de mujeres
30 - 40 16
40 - 50 18
50 - 60 22
60 - 70 51
70 - 80 62
80 - 90 55
90 - 100 22
100 - 110 4

Ejercicio 10..9. Deseamos conocer, si las distribuciones atendiendo al grupo sanguneo, en tres muestras
referidas atendiendo al tipo de tensin arterial, se distribuyen de igual manera. Para lo cual, se reuni una
muestra de 1500 sujetos a los que se les determin su grupo sanguneo y se les tom la tensin arterial,
clasificndose sta en baja, normal, y alta. Obtenindose los siguientes resultados:

Grupo sanguneo
Tensin arterial A B AB O Total
Baja 28 9 7 31 75
Normal 543 211 90 476 1.320
Alta 44 22 8 31 105
Total 615 242 105 538 1.500

Ejercicio 10..10. La recuperacin producida por dos tratamientos distintos A y B se clasifican en tres
categoras: muy buena, buena y mala. Se administra el tratamiento A a 30 pacientes y B a otros 30: De las 22
recuperaciones muy buenas, 10 corresponden al tratamiento A; de las 24 recuperaciones buenas , 14
corresponden al tratamiento A y de los 14 que tienen una mala recuperacin corresponden al tratamiento A.
Son igualmente efectivos ambos tratamientos para la recuperacin de los pacientes?

Nodo Raz: 10. Contrastes basados en el estadstico


Siguiente: 11. Anlisis de la varianza
Previo: 10.6.4 Distribuciones con parmetros desconocidos

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Siguiente: 11.2 Introduccin
Previo: 10.8 Problemas

11. Anlisis de la varianza

11.2 Introduccin
11.4 ANOVA con un factor
11.4.0.1 Observacin

11.4.2 Especificacin del modelo

11.4.2.1 Observacin

11.4.2.2 Ejemplo

11.4.4 Algo de notacin relativa al modelo

11.4.4.1 Observacin

11.4.6 Forma de efectuar el contraste

11.4.8 Mtodo reducido para el anlisis de un factor

11.4.8.1 Ejemplo

11.4.10 Anlisis de los resultados del ANOVA: Comparaciones mltiples

11.6 ANOVA de varios factores


11.8 Consideraciones sobre las hiptesis subyacentes en el modelo factorial
11.8.2 Contraste de homocedasticidad de Cochran

11.8.4 Contraste de homocedasticidad de Bartlett

11.10 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 11. Anlisis de la varianza
Siguiente: 11.4 ANOVA con un factor
Previo: 11. Anlisis de la varianza

11.2 Introduccin
Del mismo modo que el contraste generalizaba el contraste de dos proporciones, es necesario definir un
nuevo contraste de hiptesis que sea aplicable en aquellas situaciones en las que el nmero de medias que
queremos comparar sea superior a dos. Es por ello por lo que el anlisis de la varianza, ANOVA11.1 surge
como una generalizacin del contraste para dos medias de la de Student, cuando el nmero de muestras a
contrastar es mayor que dos.

Por ejemplo, supongamos que tenemos 3 muestras de diferentes tamaos que suponemos que provienen de
tres poblaciones normales con la misma varianza:

Si queremos realizar el contraste

podramos en plantearnos como primer mtodo el fijar una cantidad prxima a cero y realizar los

contrastes siguientes con como nivel de significacin:


de modo que se aceptara H1 y se rechazara H0 slo si alguna de las hiptesis alternativas H1', H1'' H1''' es
aceptada y rechazada su correspondiente hiptesis nula. El error de tipo I para este contraste es:

Por ello el nivel de significacin obtenido para este contraste sobre la igualdad de medias de tres muestras no
es como hubisemos esperado obtener inicialmente, sino . Por ejemplo, si tomamos un

nivel de significacin para cada uno de los contrastes de igualdad de dos medias, se obtendra que
el nivel de significacin (error de tipo I) para el contraste de las tres medias es de 1-0,93=0,27, lo que es una
cantidad muy alta para lo que acostumbramos a usar.

En consecuencia, no es adecuado realizar el contraste de igualdad de medias de varias muestras mediante


una multitud de contrastes de igualdad de medias de dos muestras.

Una tcnica que nos permite realizar el contraste de modo conveniente es la que exponemos en este captulo y
que se denomina anlisis de la varianza.

Nodo Raz: 11. Anlisis de la varianza


Siguiente: 11.4 ANOVA con un factor
Previo: 11. Anlisis de la varianza

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 11. Anlisis de la varianza
Siguiente: 11.4.2 Especificacin del modelo
Previo: 11.2 Introduccin

11.4 ANOVA con un factor


Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la
variable analizada la hacemos depender de un slo factor de tal manera que las causas de su variabilidad son
englobadas en una componente aleatoria que se denomina error experimental:

Vamos a exponer esto con ms claridad. Consideremos una variable sobre la que acta un factor que puede
presentarse bajo un determinado nmero de niveles, t. Por ejemplo podemos considerar un frmaco que se
administra a t=3 grupos de personas y se les realiza cierta medicin del efecto causado:

Resultado de la medicin

Gripe (nivel 1) 5 3 2 5 4 3

Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10

Sanos (nivel 3) 2 3 2 1 2 3 2

En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe,
apendicitis, o que est sana.

De modo general podemos representar las t muestras (o niveles) del siguiente modo:

Niveles Observaciones de X tamaos muestrales

Nivel x11 x12 x1 n1


n1

Nivel x21 x22 x2 n2


n2

... ... ...


Nivel x1 x2 x n
t t tnt t

donde por supuesto, los tamaos de cada muestra n , no tienen por que ser iguales. En este caso decimos que
i
se trata del modelo no equilibrado.

11.4.0.1 Observacin

De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras:

Las observaciones proceden de poblaciones normales;


Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las
observaciones son independientes entre s.

En el modelo de un factor suponemos que las observaciones del nivel i, x , provienen de una
ij
variable X de forma que todas tienen la misma varianza --hiptesis de homocedasticidad:
ij

o lo que es lo mismo,

De este modo es el valor esperado para las observaciones del nivel i, y los errores son
variables aleatorias independientes, con valor esperado nulo, y con el mismo grado de
dispersin para todas las observaciones.

Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el valor
esperado para una persona cualquiera de la poblacin (sin tener en cuenta los diferentes
niveles), y considerar los efectos introducidos por los niveles, de modo que
11.4.0.1 Observacin
11.4.2 Especificacin del modelo
11.4.2.1 Observacin

11.4.2.2 Ejemplo

11.4.4 Algo de notacin relativa al modelo


11.4.4.1 Observacin

11.4.6 Forma de efectuar el contraste


11.4.8 Mtodo reducido para el anlisis de un factor
11.4.8.1 Ejemplo

11.4.10 Anlisis de los resultados del ANOVA: Comparaciones mltiples

Nodo Raz: 11. Anlisis de la varianza


Siguiente: 11.4.2 Especificacin del modelo
Previo: 11.2 Introduccin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 11. Anlisis de la varianza
Siguiente: 11.8 Consideraciones sobre las hiptesis subyacentes
Previo: 11.4.10 Anlisis de los resultados del

11.6 ANOVA de varios factores


Hemos estudiado el modelo ANOVA de un factor, tambin denominado modelo de efecto fijo. Existen otros
modelos denominados ANOVA de varios factores que no vamos a estudiar aqu, pero que vamos a enunciar
brevemente.

Como ilustracin podemos escribir el modelo ANOVA de dos factores con interaccin en el cual se tiene

Si suponemos que no hay interaccin entre ambos factores, es decir, cada factor acta independientemente del
otro, tenemos el modelo de efectos aditivos:

En ambos casos se supone que las cantidades son independientes para todos los niveles i1 e i2 y todos
los individuos jdentro de esos niveles, estando equidistribuidos y con la misma varianza segn una ley
gaussiana:

Nodo Raz: 11. Anlisis de la varianza


Siguiente: 11.8 Consideraciones sobre las hiptesis subyacentes
Previo: 11.4.10 Anlisis de los resultados del

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 11. Anlisis de la varianza
Siguiente: 11.8.2 Contraste de homocedasticidad de Cochran
Previo: 11.6 ANOVA de varios factores

11.8 Consideraciones sobre las hiptesis


subyacentes en el modelo factorial
Para aplicar el modelo de un factor hemos hecho, entre otras, las siguientes suposiciones:

Las observaciones de cada muestra han de ser independientes y tambin la de las muestras
entre s. Para ello podemos aplicar cualquiera de los contrastes no paramtricos de
aleatoriedad. En principio esta aleatoriedad es algo que es bastante razonable admitir si la
metodologa para elegir los datos (muestreo) ha sido realizada siguiendo tcnicas adecuadas.

Los datos han de ser normales en cada una de las muestras. Esto es algo que debera ser
contrastado previamente antes de utilizar el ANOVA de un factor mediante, por ejemplo, el
test de ajuste a la distribucin normal mediante el estadstico que ya conocemos, o bien el

test de d'Agostino, que veremos ms adelante en la pgina , y que es mucho ms cmodo de


utilizar;
Las varianzas de cada muestra son todas iguales, es decir:

Para esto podemos utilizar un par de contrastes que exponemos brevemente a continuacin:
contraste de Cochran y contraste de Bartlett.

Figura:En la figura superior hay evidencia en contra


de la homocedasticidad en las tres muestras. En la
inferior, no.
11.8.2 Contraste de homocedasticidad de Cochran
11.8.4 Contraste de homocedasticidad de Bartlett

Nodo Raz: 11. Anlisis de la varianza


Siguiente: 11.8.2 Contraste de homocedasticidad de Cochran
Previo: 11.6 ANOVA de varios factores

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Siguiente: 12.2 Introduccin
Previo: 11.10 Problemas

12. Contrastes no paramtricos

12.2 Introduccin
12.4 Aleatoriedad de una muestra: Test de rachas
12.4.0.1 Aproximacin normal del test de rachas

12.6 Normalidad de una muestra: Test de D'Agostino


12.8 Equidistribucin de dos poblaciones
12.8.2 Contraste de rachas de Wald--Wolfowitz

12.8.2.1 Aproximacin normal del test de Wald--Wolfowitz

12.8.4 Contraste de Mann--Withney

12.8.4.1 Aproximacin normal del test de Mann--Withney

12.10 Contraste de Wilcoxon para muestras apareadas


12.10.0.1 Aproximacin normal en el contraste de Wilcoxon

12.12 Contraste de Kruskal-Wallis


12.12.2 Comparaciones mltiples

12.14 Problemas

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 12. Contrastes no paramtricos
Siguiente: 12.4 Aleatoriedad de una muestra: Test
Previo: 12. Contrastes no paramtricos

12.2 Introduccin
Hasta ahora todas las tcnicas utilizadas para realizar algn tipo de inferencia exigan:

bien asumir de ciertas hiptesis como la aleatoriedad en las observaciones que componen la
muestra, o la normalidad de la poblacin, o la igualdad de varianzas de dos poblaciones, etc;

o bien, la estimacin de cualquier parmetro como la media, varianza, proporcin, etc, de la


poblacin.

El conjunto de estas tcnicas de inferencia se denominan tcnicas paramtricas. Existen sin embargo otros
mtodos paralelos cuyos procedimientos no precisan la estimacin de parmetros ni suponer conocida
ninguna ley de probabilidad subyacente en la poblacin de la que se extrae la muestra. Estas son las
denominadas tcnicas no paramtricas o contrastes de distribuciones libres, algunos de los cuales
desarrollamos en este captulo. Sus mayores atractivos residen en que:

Son ms fciles de aplicar que las alternativas paramtricas;


Al no exigir ninguna condicin suplementaria a la muestra sobre su proveniencia de una
poblacin con cierto tipo de distribucin, son ms generales que las paramtricas, pudindose
aplicar en los mismos casos en que estas son vlidas.

Por otro lado, esta liberacin en los supuestos sobre la poblacin tiene inconvenientes. El principal es la falta
de sensibilidad que poseen para detectar efectos importantes. En las tcnicas no paramtricas juega un papel
fundamental la ordenacin de los datos, hasta el punto de que en gran cantidad de casos ni siquiera es
necesario hacer intervenir en los clculos las magnitudes observadas, ms que para establecer una relacin de
menor a mayor entre las mismas, denominadas rangos.

Nodo Raz: 12. Contrastes no paramtricos


Siguiente: 12.4 Aleatoriedad de una muestra: Test
Previo: 12. Contrastes no paramtricos

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 12. Contrastes no paramtricos
Siguiente: 12.6 Normalidad de una muestra: Test
Previo: 12.2 Introduccin

12.4 Aleatoriedad de una muestra: Test de


rachas
A veces al realizar un muestreo, puede llegar a influir el orden temporal o espacial en que las muestras han
sido elegidas, con lo cual no estamos en las condiciones de un muestreo aleatorio simple, ya que la ley de
probabilidad vara de una observacin a otra. Como ilustracin obsrvese la figura adjunta. Tambin podemos
denominar a este contraste como test de independencia de las observaciones de una muestra.

Consideremos una muestra de tamao n que ha sido dividida en dos categoras y con n1 y n2
observaciones cada una. Se denomina racha a una sucesin de valores de la misma categora. Por ejemplo si
estudiamos una poblacin de personas podemos considerar como categora el sexo

En funcin de las cantidades n1 y n2 se espera que el nmero de rachas no sea ni muy pequeo ni muy
grande.

Si las observaciones son cantidades numricas estas pueden ser divididas en dos categoras que poseen
aproximadamente el mismo tamao ( ), si consideramos la mediana de las observaciones
como el valor que sirve para dividir a la muestra:

Se define la v.a. R como el nmero de rachas. Su distribucin est tabulada para los casos y

(tabla 7 de Downie). La aleatoriedad en la extraccin de la muestra se rechaza cuando

12.4.0.1 Aproximacin normal del test de rachas

Si el tamao de cualquiera de las dos muestras es mayor que 30, la distribucin de R se aproxima a una
normal de media
y varianza

y se considera el estadstico

Se rechaza la hiptesis nula (aleatoriedad) si .

12.4.0.1 Aproximacin normal del test de rachas

Nodo Raz: 12. Contrastes no paramtricos


Siguiente: 12.6 Normalidad de una muestra: Test
Previo: 12.2 Introduccin

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 12. Contrastes no paramtricos
Siguiente: 12.8 Equidistribucin de dos poblaciones
Previo: 12.4 Aleatoriedad de una muestra: Test

12.6 Normalidad de una muestra: Test de


D'Agostino
Consideremos n observaciones, las cuales ordenamos de menor a mayor y les asignamos su rango en funcin
de este orden

Se calculan sobre la muestra la media, la desviacin tpica un estadstico T y por ltimo el estadstico del
contraste D cuya distribucin est tabulada

En la tabla de la distribucin del estadstico de D'Agostino, (tabla 8) D, para un nivel de significacin , se


busca un intervalo de modo que si se rechaza la normalidad y en

otro caso se asume. Para realizar este test es necesario que al menos .

Nodo Raz: 12. Contrastes no paramtricos


Siguiente: 12.8 Equidistribucin de dos poblaciones
Previo: 12.4 Aleatoriedad de una muestra: Test

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 12. Contrastes no paramtricos
Siguiente: 12.8.2 Contraste de rachas de Wald
Previo: 12.6 Normalidad de una muestra: Test

12.8 Equidistribucin de dos poblaciones


Estas son las alternativas no paramtricas del contraste de la de Student para poblaciones normales (seccin
9, pgina ). Estn concebidas para contrastar la hiptesis de que dos muestras aleatorias independientes

provienen de poblaciones que tienen idnticas distribuciones. Para aplicar estos contrastes ser en primer
lugar necesario contrastar si cada una de las muestras se ha obtenido mediante un mecanismo aleatorio. Esto
puede realizarse mediante un test de rachas.

Supongamos que el contraste de aleatoriedad de ambas muestras (cuantitativas) no permite que sta se
rechace a un nivel de significacin . Entonces aplicaremos el contraste de Mann--Withney o el de rachas
de Wald--Wolfowitz, que exponemos a continuacin.

12.8.2 Contraste de rachas de Wald--Wolfowitz


12.8.2.1 Aproximacin normal del test de Wald--Wolfowitz

12.8.4 Contraste de Mann--Withney


12.8.4.1 Aproximacin normal del test de Mann--Withney

Nodo Raz: 12. Contrastes no paramtricos


Siguiente: 12.8.2 Contraste de rachas de Wald
Previo: 12.6 Normalidad de una muestra: Test

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 12. Contrastes no paramtricos
Siguiente: 12.12 Contraste de Kruskal-Wallis
Previo: 12.8.4 Contraste de Mann Withney

12.10 Contraste de Wilcoxon para muestras


apareadas
El contraste de Wilcoxon es la tcnica no paramtrica paralela a el de la de Student para muestras
apareadas (seccin 9, pgina ). Igualmente dispondramos de n parejas de valores (x ,y ) que podemos
i i
considerar como una variable medida en cada sujeto en dos momentos diferentes.

El test de Wilcoxon, al igual que los otros contrastes no paramtricos puede realizarse siempre que lo sea su
homlogo paramtrico, con el inconveniente de que este ltimo detecta diferencias significativas en un

de casos que el de la de Student.

Sin embargo a veces las hiptesis necesarias para el test paramtrico (normalidad de las diferencias apareadas,
d ) no se verifican y es estrictamente necesario realizar el contraste que presentamos aqu. Un caso muy claro
i
de no normalidad es cuando los datos pertenecen a una escala ordinal.

El procedimiento consiste en:

1.
Ordenar las cantidades de menor a mayor y obtener sus rangos.
2.
Consideramos las diferencias d cuyo signo (positivo o negativo) tiene menor frecuencia (no
i
consideramos las cantidades d =0) y calculamos su suma, T
i
Del mismo modo es necesario calcular la cantidad T', suma de los rangos de las observaciones con
signo de d de mayor frecuencia, pero si hemos ya calculado Tla siguiente expresin de T' es ms
i
sencilla de usar

T' = m(n+1)-T

donde mes el nmero de rangos con signo de d de menor frecuencia.


i

3.
Si T T' es menor o igual que las cantidades que aparecen en la tabla de Wilcoxon (tabla
nmero 10), se rechaza la hiptesis nula del contraste

12.10.0.1 Aproximacin normal en el contraste de Wilcoxon

Si la distribucin de T admite una aproximacin normal

donde

por lo que el estadstico


da como criterio el rechazar H0 si .

12.10.0.1 Aproximacin normal en el contraste de Wilcoxon

Nodo Raz: 12. Contrastes no paramtricos


Siguiente: 12.12 Contraste de Kruskal-Wallis
Previo: 12.8.4 Contraste de Mann Withney

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 12. Contrastes no paramtricos
Siguiente: 12.12.2 Comparaciones mltiples
Previo: 12.10 Contraste de Wilcoxon para muestras

12.12 Contraste de Kruskal-Wallis


El contraste de Kruskall-Wallis es la alternativa no paramtrica del mtodo ANOVA, es decir, sirve para
contrastar la hiptesis de que k muestras cuantitativas han sido obtenidas de la misma poblacin. La nica
exigencia versa sobre la aleatoriedad en la extraccin de las muestras, no haciendo referencia a ninguna de las
otras condiciones adicionales de homocedasticidad y normalidad necesarias para la aplicacin del test
paramtrico ANOVA.

De este modo, este contraste es el que debemos aplicar necesariamente cuando no se cumple algunas de las
condiciones que se necesitan para aplicar dicho mtodo.

Al igual que las dems tcnicas no paramtricas, sta se apoya en el uso de los rangos asignados a las
observaciones.

Para la exposicin de este contraste, supongamos que tenemos k muestras representadas en una tabla como
sigue,

Niveles Observaciones de X

Nivel x11 x12 x1


n1

Nivel x21 x22 x2


n2

... ...

Nivel x x x
k1 k2 knk

El nmero total de elementos en todas las muestras es:

La hiptesis a contrastar es:


El modo de realizar el contraste es el siguiente:

Se ordenan las observaciones de menor a mayor, asignando a cada una de ellas su rango (1
para la menor, 2 para la siguiente, ...,Npara la mayor).
Para cada una de las muestras, se calcula R , , como la suma de los rangos de
i
las observaciones que les corresponden. Si H0 es falsa, cabe esperar que esas cantidades sean
muy diferentes.

Se calcula el estadstico:

La regla para decidir si se ha de rechazar o no la hiptesis nula es la siguiente:

Si el nmero de muestras es k=3 y el nmero de observaciones en cada una de ellas no pasa de


5 se rechaza H0 si el valor de Hsupera el valor terico que encontramos en la tabla de Kruskall-
Wallis --tabla nmero 11.
En cualquier otro caso, se compara el valor de H con el de la tabla de la con k-1

grados de libertad. Se rechaza H0 si el valor del estadstico supera el valor terico .

12.12.2 Comparaciones mltiples

Nodo Raz: 12. Contrastes no paramtricos


Siguiente: 12.12.2 Comparaciones mltiples
Previo: 12.10 Contraste de Wilcoxon para muestras

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: 12. Contrastes no paramtricos
Siguiente: Bibliografa
Previo: 12.12.2 Comparaciones mltiples

12.14 Problemas
Ejercicio 12..1. Recientes estudios sobre el ejercicio de la Medicina en centros en los que no actan
estudiantes, indican que la duracin media de la visita por paciente es de 22 minutos. Se cree que en centros
donde con un elevado nmero de estudiantes en prcticas esta cifra es menor. Se obtuvieron los siguientes
datos sobre las visitas de 20 pacientes aleatoriamente seleccionados:

Duracin en minutos de la visita


21'6 13'4 20'4 16'4 23'5 26'8 24'8 19'3
23'4 9'4 16'8 21'9 24'9 15'6 20'1 16'2
18'7 18'1 19'1 18'9

1.
Constituyen estos datos una muestra aleatoria?

2.
Podemos concluir en base a estos datos que la poblacin de la cual fue extrada esta muestra
sigue una distribucin Normal?

Ejercicio 12..2. Se realiza un estudio para determinar los efectos de poner fin a un bloqueo renal en pacientes
cuya funcin renal est deteriorada a causa de una metstasis maligna avanzada de causa no urolgica. Se
mide la tensin arterial de cada paciente antes y despus de la operacin. Se obtienen los siguientes
resultados:

Tensin arterial
Antes 150 132 130 116 107 100 101 96 90 78
Despus 90 102 80 82 90 94 84 93 89 8?????

Se puede concluir que la intervencin quirrgica tiende a disminuir la tensin arterial?

Ejercicio 12..3. Se ensayaron dos tratamientos antirreumticos administrados al azar, sobre dos grupos de 10
pacientes, con referencia a una escala convencional (a mayor puntuacin, mayor eficacia), valorada despus
del tratamiento. Los resultados fueron:
Nivel de eficacia del tratamiento
Tratamiento primero 12 15 21 17 38 42 10 23 35 28
Tratamiento segundo 21 18 25 14 52 65 40 43 35 42

Decidir si existe diferencia entre los tratamientos.

Ejercicio 12..4. Puesto que el hgado es el principal lugar para el metabolismo de los frmacos, se espera que
los pacientes con enfermedades de hgado tengan dificultades en la eliminacin de frmacos. Uno de tales
frmacos es la fenilbutazona. Se realiza un estudio de la respuesta del sistema a este frmaco. Se estudian tres
grupos: controles normales, pacientes con cirrosis heptica, pacientes con hepatitis activa crnica. A cada
individuo se les suministra oralmente 19 mg de fenilbutazona/Kg. de peso. Basndose en los anlisis de
sangre se determina para cada uno el tiempo de mxima concentracin en plasma (en horas). Se obtienen
estos datos:

Normal Cirrsis Hepattis


4 22,6 16,6
30,6 14,4 12,1
26,8 26,3 7,2
37,9 13,8 6,6
13,7 17,4 12,5
49 15'1
6,7
20

Se puede concluir que las tres poblaciones difieren respecto del tiempo de mxima concentracin en plasma
de fenilbutazona?

Ejercicio 12..5. El administrador de un laboratorio est considerando la compra de un aparato para analizar
muestras de sangre. En el mercado hay 5 de tales aparatos. Se le pide a cada uno de los 7 tcnicos mdicos
que despus de probar los aparatos, les asignen un rango de acuerdo con el orden de preferencia, dndole el
rango 1 al preferido. Se obtienen los siguientes datos:

Analizador de sangre
Tcnico I II III IV V
1 1 3 4 2 5
2 4 5 1 2 3
3 4 1 3 5 2
4 1 3 2 5 4
5 1 2 3 4 5
6 5 1 3 2 4
7 5 1 4 3 2

Utilizar el contraste adecuado para determinar si los tcnicos perciben diferencias entre los aparatos.

Ejercicio 12..6. Los efectos de tres drogas con respecto al tiempo de reaccin a cierto estmulo fueron
estudiados en 4 grupos de animales experimentales. El grupo IV sirvi de grupo control, mientras que a los
grupos I, II y III les fueron aplicadas las drogas A, B y C respectivamente, con anterioridad a la aplicacin del
estmulo:

A B C Control
17 8 3 2
20 7 5 5
40 9 2 4
31 8 9 3
35

Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reaccin?

Ejercicio 12..7. La tabla siguiente muestra los niveles de residuo pesticida (PPB) en muestras de sangre de 4
grupos de personas. Usar el test de Kruskal-Wallis para contrastar a un nivel de confianza de 0'05, la hiptesis
nula de que no existe diferencia en los niveles de PPB en los cuatro grupos considerados.

Niveles de PPB
Grupo I 10 37 12 31 11 9 23
Grupo II 4 35 32 19 33 18 8
Grupo III 15 5 10 12 6 6 15
Grupo IV 7 11 1 08 2 5 3

Ejercicio 12..8. La cantidad de aminocidos libres fue determinada para 4 especies de ratas sobre 1 muestra
de tamao 6 para cada especie. Comprobar si el contenido de aminocidos libres es el mismo para las 4
especies.

Especies de ratas
I II III IV
431'1 477'1 385'5 366'8
440'2 479'0 387'9 369'9
443'2 481'3 389'6 371'4
445'5 487'8 391'4 373'2
448'6 489'6 399'1 377'2
451'2 403'6 379'4 381'3

Ejercicio 12..9. Los siguientes datos nos dan el peso de comida (en Kg.) consumidos por adulto y da en
diferentes momentos en un ao. Usar un contraste no paramtrico para comprobar si el consumo de comida es
el mismo en los 4 meses considerados.

Febrero Mayo Agosto Noviembre


4,7 4,7 4,8 4,9
4,9 4,4 4,7 5,2
5,0 4,3 4,6 5,4
4,8 4,4 4,4 5,1
4,7 4,1 4,7 5,6

Ejercicio 12..10. Se hizo un estudio neurofisiolgico sobre la conduccin motora tibial posterior en dos
grupos de pacientes embarazadas con las siguientes determinaciones:

Conduccin motora tibial posterior


Primer grupo 51 40 41 53 48 50 45 58 45 44
Segundo grupo 58 43 40 45 41 42 44 52 56 48

Comprobar la igualdad o no de ambas muestras.

Ejercicio 12..11. En un experimento diseado para estimar los efectos de la inhalacin prolongada de xido
de cadmio, 15 animales de laboratorio sirvieron de sujetos para el experimento, mientras que 10 animales
similares sirvieron de controles. La variable de inters fue el nivel de hemoglobina despus del experimento.
Se desea saber si puede concluirse que la inhalacin prolongada de xido de cadmio disminuye el nivel de
hemoglobina segn los siguientes datos que presentamos:

Nivel de hemoglobina
Expuestos 14'4 14'2 13'8 16'5 14'1 16'6 15'9 15'6 14'1 15'3
15'7 16'7 13'7 15'3 14'0
No expuestos 17'4 16'2 17'1 17'5 15'0 16'0 16'9 15'0 16'3 16'8

Ejercicio 12..12. A 11 ratas tratadas crnicamente con alcohol se les midi la presin sangunea sistlica
antes y despus de 30 minutos de administrarles a todas ellas una cantidad fija de etanol, obtenindose los
datos siguientes:

Presin sangunea sistlica


Antes 126 120 124 122 130 129 114 116 119 112 118
Despus 119 116 117 122 127 122 110 120 112 110 111

Hay un descenso significativo de la presin sangunea sistlica tras la ingestin de etanol?

Ejercicio 12..13. Un test de personalidad, tiene dos formas de determinar su valoracin suponiendo
inicialmente que ambos mtodos miden igualmente la extroversin. Para ello se estudia en 12 personas
obtenindose los siguientes resultados:

Medida de la extraversin
Forma A 12 18 21 10 15 27 31 6 15 13 8 10
Forma B 10 17 20 5 21 24 29 7 11 13 8 11

Hay diferencia entre los dos mtodos?

Nodo Raz: 12. Contrastes no paramtricos


Siguiente: Bibliografa
Previo: 12.12.2 Comparaciones mltiples

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: Bioestadstica: Mtodos y Aplicaciones
Siguiente: About this document ...
Previo: 12.14 Problemas

Bibliografa
AB 92
P. ARMITAGE, G. BERRY, Estadstica para la Investigacin Biomdica. Doyma, Barcelona,
1992.

Cal 74
G. CALOT, Curso de Estadstica Descriptiva. Paraninfo, Madrid, 1974.

Car 82
J.L. CARRASCO DE LA PEA, El Mtodo Estadstico en la Investigacin Mdica. Karpus,
Madrid, 1982.

Dan 90
W.W. DANIEL, Applied Nonparemetric Statistics. PWS-Kent Publishing Company, Boston,
1990.

Ham 90
L.C. HAMILTON, Modern Data Analysis. Brooks/Cole Publishing Company, Pacific Grove,
1990.

Mar 94
A. MARTN ANDRS, J.D. LUNA DEL CASTILLO, Bioestadstica para las Ciencias de la salud.
Norma, Granada, 1994.

MS 88
L.A. MARASCUILO, R.C. SERLIN, Statistical Methods for the Social and Behavioral Sciences.
W.H. Freeman and Company, Nueva York, 1988.

Pe 94
D. PEA SNCHEZ DE RIVERA, Estadstica: Modelos y Mtodos, 1. Alianza Universidad
Textos, Madrid, 1994.

RMR 91
T. RIVAS MOYA, M.A. MATEO, F. RUS DAZ, M. RUIZ, Estadstica Aplicada a las Ciencias
Sociales: Teora y Ejercicios (EAC). Secretariado de Publicaciones de la Universidad de
Mlaga, Mlaga, 1991.
RM 92
E. RUBIO CALVO, T. MARTNEZ TERRER Y OTROS, Bioestadstica. Coleccin Monografas
Didcticas, Universidad de Zaragoza, Zaragoza, 1992.

RS 79
R.D. REMINGTON, M.A. SCHORK, Estadstica Biomtrica y Sanitaria. Prentice Hall
International, Madrid, 1979.

Rum 77
L. RUIZ-MAYA, Mtodos Estadsticos de investigacin (Introduccin al Anlisis de la
Varianza). I.N.E. Artes Grficas, Madrid, 1977.

SR 90
E. SNCHEZ FONT, F. RUS DAZ, Gua para la Asignatura de Bioestadstica (EAC).
Secretariado de Publicaciones de la Universidad de Mlaga, Mlaga, 1990.

ST 85
STEEL, TORRIE, Bioestadstica (Principios y Procedimientos). Mac Graw-Hill, Bogot, 1985.

Tso 89
M. TSOKOS, Estadstica para Psicologa y Ciencias de la Salud. Interamericana Mac Graw-
Hill, Madrid, 1989.

WG 82
S.L. WEINBERG, K.P. GOLDBERG, Estadstica Bsica para las Ciencias Sociales. Nueva
Editorial Interamericana, Mexico, 1982.

Zar 74
J.H. ZAR, Biostatistical Analysis. Prentice Hall Inc., Englewood Cliffs, 1974.

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Nodo Raz: Bioestadstica: Mtodos y Aplicaciones
Previo: Bibliografa

About this document ...


Bioestadstica: Mtodos y Aplicaciones

This document was generated using the LaTeX2HTML translator Version 98.1p1 release (March 2nd,
1998)

Copyright 1993, 1994, 1995, 1996, 1997, Nikos Drakos, Computer Based Learning Unit,
University of Leeds.

The command line arguments were:


latex2html html.

The translation was initiated by Fco. Javier Baron Lopez on 1998-09-04

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo
Pgina de la Unidad Docente

Apuntes y vdeos de Bioestadstica


Bioestadstica para la Diplomatura en Fisioterapia y Licenciatura en Medicina
Apuntes para cursos de doctorado
Versin web del libro de texto de la asignatura. Bioestadstica: Mtodos y aplicaciones.

Condiciones de uso
Puedes usar libremente el material tanto si eres profesor como estudiante.

Si eres profesor, ests autorizado a modificar libremente las transparencias en PowerPoint


para que se ajusten mejor a tus clases. Slo est prohibido poner el simbolito "copyright" o
algo con contenido semntico similar, en cualquier cosa que modifiques. Libre est cuando
lo tomas y libre debe seguir despus. De todas maneras me gusta saber dnde se est
usando. Si tienes alguna sugerencia me encantar recibirla.

Sobre el formato de los ficheros


Los apuntes los encontraris en diferentes formatos:

Formato PDF. Necesitaris tener instalado el visor Acrobat Reader en vuestro


ordenador. De aqu podis descargarlo. Son simplemente las diapositivas que vemos
en la Escuela. Son ms adecuados para enviar a la impresora.

Formato PPT. Para abrir usando Microsoft Power Point o el paquete ofimtico
gratuito Openoffice. Es lo mismo que lo anterior, pero os lo recomiendo para seguirlo
en la pantalla de un ordenador.

Formato VDEO (WMV). Son vdeos sobre la teora teorico y las prcticas con
SPSS. Para que no aparezca borroso tenis que poner el escritorio a resolucin
superior o igual a 800x600 y el reproductor windows media a pantalla completa.
Es posible que al descargar los vdeos no veas la imagen. Eso ocurre si tu
reproductor "Windows Media" no tiene instalados los CODECS necesarios. En
principio si la versin es la windows media 9 o superior, debera hacerlo
automticamente si la primera vez que veas el vdeo estas conectado a Internet. Si a
pesar de eso no lo ves, te puede ayudar descargar este CODEC e instlalo en tu
ordenador. Tranquilo. No tiene virus.
Primer ciclo:
Conforme vayamos avanzando en el curso, iris encontrando nuevos temas. Puedo poner
temas antes de que estn terminado. Incluso puedo modificarlos completamente. Estad
atento a las modificaciones.

Versin
Presentacin Vdeo windows
Tema Ttulo Acrobat
PowerPoint media 9
Reader
Tema 0 Presentacin del curso. PDF PPT
Tema 1 Introduccin a la PDF PPT Vdeo (6.2MB)
estadstica descriptiva.
Tema 2 Estadsticos PDF PPT Vdeo(12.4MB)
Tema 3 Estadstica bivariante y PDF PPT Vdeo(10.5MB)
regresin
Tema 4 Probabilidad PDF PPT Vdeo (14.5MB)
Tema 5 Modelos de PDF PPT En preparacin
Probabilidad.
Tema 6 Muestreo PDF PPT En preparacin
Tema 7 Contrastes de hiptesis. PDF PPT Vdeo (9.7MB)

Versin Vdeo
Prctica Ttulo Acrobat windows
Reader media 9
Prctica Creacin de una base de datos en Vdeo prctica
1 SPSS. 1 (1.8MB)

Recordaremos los conceptos de


variables y tipos de variables.
Veremos cmo preparar una base
de datos a partir de un formulario
de encuesta
Prctica Estadstica descriptiva con una Vdeo prctica
2 variable. 2a (3.5MB)

Tomaremos una base de datos de Vdeo prctica


las que vienen con SPSS y 2b (1.6MB)
aprenderemos a hacer tablas,
representaciones grficas y a
calcular estadsticos que resuman
la informacin contenida en las
variables.
Prctica Regresin. Vdeo prctica
3 3 (1.6MB)
Veremos cmo hacer un estudio
de regresin lineal entre variables
usando SPSS

Apuntes de Bioestadstica para cursos de doctorado


Responsable: Francisco Javier Barn Lpez.
Este curso se est desarrollando estos das. Los apuntes en PDF deberais leerlos antes
de venir a clase, para un mejor aprovechamiento. Son muchos temas y pocas horas!

Acrobat Vdeo
Prctica Ttulo Vdeo prctica Bases de datos
Reader teora
Tema 1 Estadstica PDF Vdeo (4,7MB) Se registro
descriptiva mal el
con una o ms audio, pero
variables. algo se
entiende...

Vdeo 1
parte
(34MB):
Conceptos
bsicos,
tablas,
grficas.

Vdeo 2
parte
(45MB):
Estadsticos
Vdeo 3
parte
(18MB):
Varias
variables.
Tema 2 Intervalos de PDF Vdeo
confianza (32MB)
Tema 3 Contrastes de PDF Vdeo
hiptesis. (20MB)
Significacin
estadstica
Tema 4 Variables PDF Vdeo Vdeo tstud.sav para 2 muestras
numricas en (1,7MB) (47MB) relacionadas.
2 grupos muestras
T-Student relacionadas. calcio.sav para 2
Wilcoxon muestras independientes.
Mann- Vdeo (3MB)
Whitney muestras
independientes.
Tema 5 Variables PDF Vdeo Vdeo lectura.sav para 3
numricas en (2,7MB) (31MB) muestras independientes.
varios grupos ANOVA, post-
ANOVA hoc y Kruskal-
Kruskal- Wallis.
Wallis

Tema 6 Regresin PDF En preparacin 1 semana


mltiple de
marzo'05
Tema 7 Independencia PDF En preparacin 1 semana
de variables de
categricas marzo'05
Chi cuadrado
Tema 8 Regresin PDF En preparacin 2 semana
logstica de marzo'5
Bioestadstica

Diplomatura en Fisioterapia
E. U. Ciencias de la Salud
Universidad de Mlaga

Francisco Javier Barn Lpez

Bioestadstica. U. Mlaga. Tema 1: Introducin 1

La estadstica es antiptica
n En mis estudios no sera necesario
n Quidquid latine dictum sit, Las Ciencias de la Salud no son
altum viditur deterministas

Lo que se dice en latn, parece n El anestesista lleg al stano en


ms profundo 2,75 segundos. De qu altura
cay?

n Mienten Lo asegurado es la incertidumbre


Aprendamos a interpretarlas y
usarlas correctamente.
n El tabaco mata
A todo el mundo?
n Los matemticos estn Influye tener una enfermedad
cardiaca?
obsesionados con los Influye el nmero de cigarrillos?
nmeros Influye la raza, sexo, tipo de tabaco,...
En realidad slo el
98,56432336% lo estamos.
Bioestadstica. U. Mlaga. Tema 1: Introducin 2

1
Pgina del curso
http://www.bioestadistica.uma.es

n Contiene enlaces a
Apuntes y videos de los temas
Informacin ampliada
Pruebas de autoevaluacin
Tutoras, bibliografa, enlaces tiles,...
Anuncios, resultados de los exmenes

Bioestadstica. U. Mlaga. Tema 1: Introducin 3

Apuntes del curso


n Electrnicos
Diapositivas en PowerPoint
dem convertidas a Acrobat Reader (PDF)
Videos AVI con explicaciones resumidas de los temas. Consideradlo como una
herramienta de tutora. No sustituye las clases... al 100% al me nos.
Manual del SPICUM en versin HTML. Para ampliar informacin. Est todo
*MUY* detallado.

n Papel
Diapositivas en el servicio de reprografa. 2 diapositivas por pgina

n Contienen errores?
S, con confianza del 95%.
Ayudadme a corregirlos. Contrastadlo con lo que realmente diga e n clase.

Bioestadstica. U. Mlaga. Tema 1: Introducin 4

2
Bibliografa
n Bioestadstica: mtodos y aplicaciones
F. Rius, F.J. Barn, E. Snchez, L. Parras.
Ed: SPICUM, Mlaga. 3 Ed. 1999.
ISBN: 84-7496-579-9

n Elementos bsicos de estadstica econmica y empresarial


A. Montiel, F. Rius, F.J. Barn
Ed: Prentice-Hall (ahora Pearson Education), 1996.
ISBN: 84-89660-20-4

n Bioestadstica Amigable
M.A. Martnez-Gonzlez, Jokin de Irala, F.J. Fauln Fajardo
Ed: Daz de Santos. Madrid, 2001.

n Cualquier otro manual de estadstica que tengis (incluido bachillerato).


Ensedmelo y os sealar qu debis estudiar o ampliar.

Bioestadstica. U. Mlaga. Tema 1: Introducin 5

Evaluacin

n Examen de tipo test


70% cuestiones tericas (aprox.)
30% cuestiones sobre resultado de anlisis por ordenador

n Dificultades
Un slo examen en febrero (adems del de septiembre)
Las respuestas errneas valen - de las acertadas.
La opcin ms evidente no es la correcta... o s...

Bioestadstica. U. Mlaga. Tema 1: Introducin 6

3
Letra pequea

Estos apuntes estn hechos para complementar las clases a los alumnos de la asignatura
cuatrimestral de Bioestadstica en la E.U. de Ciencias de la Sal ud y en la Facultad de
Medicina de la Universidad de Mlaga, no siendo el nico material pedaggico del que
disponen. Pueden contener errores, se omiten conceptos y aclaraciones que haran
farragosas las transparencias, y por supuesto no estn temas importantes que deberan
formar parte de un curso de estadstica de mayor duracin. No me hago responsable de que
algo de lo anterior pueda causar el suspenso de alguin, que lo deje la novia, etc... Mi objetivo
es que puedan servir para facilitar el aprendizaje de la estadstica a cualquiera que le interese,
as que si quieres, puedes descargarlos libremente. Si eres profesor de la materia, puedes
hacer correcciones, mejorar las explicaciones, modificarlo como te parezca mejor para
adecuarlo a tus alumnos y distribuirlo libremente sin ningn tipo de consentimiento ni
necesidad de informarme. No es necesario incluir ninguna referencia al original, aunque se
agradece. La nica restriccin es que no debes aadir al documento ningn tipo de
restricciones adicionales a las que ests leyendo. De todas formas, si lo haces no soy el tipo
de persona que reclama. Si las modificaciones o temas que aadas crees que pueden ser de
utilidad para incluirlos en esta distribucin, te agradecera que me informases en
baron@uma.es. Si lo usas en algn curso y tienes la amabilidad de informarme tambin te lo
agradecer. Si crees que estas condiciones van en contra de algn tipo de ley de propiedad
intelectual (que no me he ledo) no puedes usarlo de ninguna manera. Est expresamente
prohibido usar cualquier argumentacin en contra que a un abogado pudiera ocurrrsele o no.

Bioestadstica. U. Mlaga. Tema 1: Introducin 7

4
Siguiente: 1. Conceptos previos

1. Conceptos previos
1.2 Introduccin

1.3 Qu es la estadstica?

1.5 Elementos. Poblacin. Caracteres

1.5.0.1 Ejemplo

1.7 Organizacin de los datos

1.7.2 Variables estadsticas

1.7.4 Tablas estadsticas

1.9 Representaciones Grficas

1.9.2 Grficos para variables cualitativas

1.9.4 Grficos para variables cuantitativas

1.11 Problemas

2. Medidas descriptivas
2.1 Introduccin

2.3 Estadsticos de tendencia central

2.3.2 La media

2.3.4 La mediana

2.3.6 La moda

2.3.8 Relacin entre media, mediana y moda

2.5 Estadsticos de posicin

2.5.0.1 Ejemplo

2.5.0.2 Ejemplo

2.5.0.3 Ejemplo

2.5.0.4 Ejemplo

2.7 Medidas de variabilidad o dispersin

2.7.2 Desviacin media, D


m
2.7.4 Varianza y desviacin tpica
2.7.6 Coeficiente de variacin

2.9 Asimetra y apuntamiento


2.9.2 Estadsticos de asimetra

2.9.4 Estadsticos de apuntamiento

2.11 Problemas
3. Variables bidimensionales
3.2 introduccin

3.4 Tablas de doble entrada

3.4.2 Distribuciones marginales

3.4.4 Distribuciones condicionadas

3.6 Dependencia funcional e independencia

3.6.2 Dependencia funcional

3.6.4 Independencia

3.8 Medias y varianzas marginales y condicionadas

3.8.0.1 Proposicin

3.10 Covarianza y coeficiente de correlacin

3.10.0.1 Proposicin

3.10.0.2 Ejemplo

3.10.2 Una interpretacin geomtrica de la covarianza

3.10.4 Interpretacin geomtrica de r

3.12 Regresin

3.12.2 Bondad de un ajuste

3.12.4 Regresin lineal

3.14 Problemas

4. Clculo de probabilidades y variables aleatorias


4.2 introduccin

4.4 Experimentos y sucesos aleatorios

4.4.0.0.0.1 Suceso seguro:

4.4.0.0.0.2 Suceso imposible:

4.4.0.0.0.3 Suceso contrario a un suceso A:

4.4.0.1 Ejemplo

4.6 Operaciones bsicas con sucesos aleatorios

4.6.0.0.0.1 Unin:

4.6.0.0.0.2 Interseccin:

4.6.0.0.0.3 Diferencia:

4.6.0.0.0.4 Diferencia simtrica:

4.8 Experimentos aleatorios y probabilidad

4.8.0.1 Ejemplo

4.8.2 Probabilidad de Laplace

4.8.4 Definicin axiomtica de probabilidad

4.10 Probabilidad condicionada e independencia de sucesos

4.10.0.1 Ejemplo

4.10.0.2 Observacin

4.12 Ciertos teoremas fundamentales del clculo de probabilidades

4.12.0.1 Proposicin

4.12.0.2 Ejemplo
4.12.0.3 Ejemplo
4.12.0.4 Teorema (Probabilidad compuesta)

4.12.0.5 Teorema (Probabilidad total)

4.12.0.6 Ejemplo

4.12.0.7 Teorema (Bayes)

4.12.0.8 Ejemplo

4.12.0.9 Observacin

4.14 Tests diagnsticos

4.14.0.1 Ejemplo

4.16 Problemas

5. Variables aleatorias
5.2 Introduccin

5.2.0.1 Observacin

5.2.0.2 Observacin

5.4 Variables aleatorias discretas

5.4.0.1 Observacin

5.4.0.2 Proposicin (Distribuciones discretas)

5.6 Variables aleatorias continuas

5.6.0.1 Observacin

5.6.0.2 Observacin

5.6.0.3 Proposicin

5.6.2 Cambio de variable

5.8 Medidas de tendencia central y dispersin de v.a.

5.8.2 Valor esperado o esperanza matemtica

5.8.4 Varianza

5.8.6 Momentos de una v.a.

5.8.8 Desigualdad de Tchebycheff y v.a. tipificadas

5.8.10 Funcin caracterstica

6. Principales leyes de distribucin de variables aleatorias


6.2 Introduccin

6.4 Distribuciones discretas

6.4.2 Distribucin de Bernoulli

6.4.4 Distribucin binomial

6.4.6 Distribucin geomtrica ( o de fracasos)

6.4.8 Distribucin binomial negativa

6.4.10 Distribucin hipergeomtrica

6.4.12 Distribucin de Poisson (o de los sucesos raros)

6.6 Reproductividad de familias de v.a.

6.8 Distribuciones continuas

6.8.2 Distribucin uniforme o rectangular

6.8.4 Distribucin exponencial


6.8.6 Distribucin normal o gaussiana
6.8.8 Distribucin
6.8.10 Distribucin de Student
6.8.12 La distribucin de Snedecor
6.10 Problemas

I. Inferencia estadstica
7. Introduccin a la inferencia

7.2 Introduccin

7.4 Tcnicas de muestreo sobre una poblacin

7.4.2 Muestreo aleatorio

7.4.4 Muestreo aleatorio estratificado

7.4.6 Muestreo sistemtico

7.4.8 Muestreo por conglomerados

7.6 Propiedades deseables de un estimador

7.6.0.1 Ejemplo

7.6.2 Carencia de sesgo

7.6.4 Consistencia

7.6.6 Eficiencia

7.6.8 Suficiencia

7.6.10 Estimadores de mxima verosimilitud

7.6.12 Algunos estimadores fundamentales

8. Estimacin confidencial

8.2 Introduccin

8.4 Intervalos de confianza para la distribucin normal

8.4.2 Intervalo para la media si se conoce la varianza

8.4.4 Intervalo para la media (caso general)

8.4.6 Intervalo de confianza para la varianza

8.4.8 Estimacin del tamao muestral

8.4.10 Intervalos para la diferencia de medias de dos poblaciones

8.6 Intervalos de confianza para variables dicotmicas

8.6.2 Intervalo para una proporcin

8.6.4 Eleccin del tamao muestral para una proporcin

8.6.6 Intervalo para la diferencia de dos proporciones

8.8 Problemas

9. Contrastes de hiptesis

9.2 Introduccin

9.2.0.1 Ejemplo

9.2.2 Observaciones

9.4 Contrastes paramtricos en una poblacin normal

9.4.2 Contrastes para la media


9.4.4 Contrastes para la varianza
9.6 Contrastes de una proporcin

9.6.0.1 Contraste bilateral

9.6.0.2 Contrastes unilaterales

9.8 Contrastes para la diferencia de medias apareadas

9.8.0.1 Contraste bilateral

9.8.0.2 Contrastes unilaterales

9.8.0.3 Observacin

9.10 Contrastes de dos distribuciones normales independientes

9.10.2 Contraste de medias con varianzas conocidas

9.10.4 Contraste de medias homocedticas

9.10.6 Contraste de medias no homocedticas

9.10.8 Contrastes de la razn de varianzas

9.10.10 Caso particular: Contraste de homocedasticidad

9.12 Contrastes sobre la diferencia de proporciones

9.12.0.1 Contraste bilateral

9.12.0.2 Contrastes unilaterales

9.14 Problemas

10. Contrastes basados en el estadstico Ji-Cuadrado


10.2 Introduccin

10.4 El estadstico y su distribucin


10.4.0.1 Observacin
10.4.0.2 Observacin

10.4.0.3 Observacin

10.4.0.4 Ejemplo

10.4.0.5 Observacin

10.6 Contraste de bondad de ajuste para distribuciones

10.6.2 Distribuciones de parmetros conocidos

10.6.4 Distribuciones con parmetros desconocidos

10.8 Problemas

11. Anlisis de la varianza


11.2 Introduccin

11.4 ANOVA con un factor

11.4.0.1 Observacin

11.4.2 Especificacin del modelo

11.4.4 Algo de notacin relativa al modelo

11.4.6 Forma de efectuar el contraste

11.4.8 Mtodo reducido para el anlisis de un factor

11.4.10 Anlisis de los resultados del ANOVA: Comparaciones

mltiples
11.6 ANOVA de varios factores
11.8 Consideraciones sobre las hiptesis subyacentes en el modelo factorial

11.8.2 Contraste de homocedasticidad de Cochran

11.8.4 Contraste de homocedasticidad de Bartlett

11.10 Problemas

12. Contrastes no paramtricos

12.2 Introduccin

12.4 Aleatoriedad de una muestra: Test de rachas

12.4.0.1 Aproximacin normal del test de rachas

12.6 Normalidad de una muestra: Test de D'Agostino

12.8 Equidistribucin de dos poblaciones

12.8.2 Contraste de rachas de Wald--Wolfowitz

12.8.4 Contraste de Mann--Withney

12.10 Contraste de Wilcoxon para muestras apareadas

12.10.0.1 Aproximacin normal en el contraste de Wilcoxon

12.12 Contraste de Kruskal-Wallis

12.12.2 Comparaciones mltiples

12.14 Problemas

Bibliografa
About this document ...

ste texto es la versin electrnica del manual de la Universidad de Mlaga:


Biostadstica: Mtodos y Aplicaciones
U.D. Bioestadstica. Facultad de Medicina. Universidad de Mlaga.
ISBN: 847496-653-1
Material de apoyo

También podría gustarte