Está en la página 1de 288

BIOESTADISTICA

∑x i
µ̂ = x = 1
n

95%

µ − 1.96 σ x µ x
µ + 1.96 σ x

Mg. Beatriz Castañeda Saldaña


.

BIOESTADISTICA
Mg. Beatriz Castañeda Saldaña
Profesora de Bioestadística
Facultad de Ingeniería Ambiental
Universidad Nacional de Ingeniería

La Magíster Beatriz Castañeda estudió la licenciatura en Estadística en la Universidad


Nacional de Trujillo y realizó sus estudios de maestría en Economía en la Universidad
Nacional Mayor de San Marcos. Ejerce la docencia desde 1979 y es profesora Principal
en la Universidad Nacional de Ingeniería y en la Universidad Nacional Mayor de San
Marcos. Desde 1988 hasta el 2004 ha sido consultora en proyectos de Investigación en el
Centro Panamericano de Ingeniería Sanitaria.
.

A mis alumnos que han sido y son


mi motor para seguir aprendiendo
BIOESTADISTICA

INDICE
INTRODUCCION 1

1. ESTADISTICA DESCRIPTIVA 5
1.1. Organización de datos 5
1.2. Medidas de Resumen 12
1.2.1. Medidas de Posición 13
1.2.2. Medidas de Dispersión 22
1.2.3. Medidas de Forma 25
Práctica Domiciliaria 1 28
1.2.4. Medición de datos nominales 32
Práctica Domiciliaria 2 44
Bibliografía del capítulo 49

2. PROBABILIDAD 51
2.1. Función Probabilidad 53
2.2. Asignación de probabilidad 54
2.3. Métodos de enumeración y conteo 56
2.4. Probabilidad Condicional. Probabilidad condicional de Bayes 62
2.5. Evaluación de procedimientos de detección. Sensibilidad,
especificidad, valor predictivo 67
Práctica Domiciliaria 3 70
Bibliografía del capítulo 79

3. VARIABLES ALEATORIAS Y
DISTRIBUCIONES DE PROBABILIDAD 80
3.1. Variable aleatoria. Función de cuantía. Función de densidad
Función de distribución 80
3.2. Valor esperado y Varianza 87
Práctica Domiciliaria 4 90
3.3. Distribuciones de variables discretas 95
3.3.1. Distribución de Bernoulli 95
3.3.2. Distribución Binomial 96
3.3.3. Distribución hipergeométrica 99
3.3.4. Distribución de Poisson 103
3.4. Distribuciones de variables continuas 106
3.4.1. Distribución Exponencial 106
3.4.2. Distribución Normal 108
Práctica Domiciliaria 5 118
3.5. Distribuciones de funciones de variables aleatorias 128
Bibliografía del capítulo 133

4. DISTRIBUCIONES DEL MUESTREO 134

i
BIOESTADISTICA

4.1. Variables del muestreo 135


4.2. Distribución de la media muestral 136
4.3. Distribución de la varianza muestral 143
4.4. Distribución de la proporción muestral 145
Práctica domiciliaria 6 149
Bibliografía del capítulo 153

5. ESTIMACION 154
5.1. Estimación Puntual 154
5.2. Estimación interválica 155
5.2.1. Estimación interválica para la media poblacional
Error de muestreo. Tamaño de muestra 156
5.2.2. Estimaciçon interválica para la varianza poblacional 161
5.2.2. Estimación interválica para la proporción poblacional
Error de muestreo. Tamaño de muestra 162
5.2.4. Estimación interválica para la diferencia de medias
poblacionales 167
5.2.5. Estimación interválica para la diferencia de proporciones
poblacionales 171
Práctica domiciliaria 7 173
Bibliografía del capítulo 177

6. PRUEBA DE HIPÓTESIS 178


6.1. Pprincipios básicos de prueba de hipótesis 178
6.1.1. Definición 178
6.1.2. Elementos de una prueba de hipótesis 178
Ejercicio Aplicativo Nº 1 196
6.2. Pruebas Estadísticas 198
6.2.1. Pruebas paramétricas y Pruebas no paramétricas 200
6.2.2. Pruebas paramétricas 201
6.2.2.1. Pruebas de hipótesis para la media poblacional 208
6.2.2.2. Prueba Ji-Cuadrado para la varianza poblacional 209
6.2.2.3. Prueba Z para la proporción poblacional 213
6.2.2.4. Pruebas de hipótesis para la comparación de medias
poblacionales 216
6.2.2.5. Prueba para la media de la diferencia (datos apareados) 226
6.2.2.6. Prueba F para comparación de varianzas poblacionales 229
6.2.2.7. Prueba Z para comparación de proporciones poblacionales 234
6.2.3. Pruebas no paramétricas 239
6.2.3.1 Pruebas de bondad de ajuste de Kolmogorov-Smirnov 239
6.2.3.2. Prueba Ji- Cuadrado para comparación de proporciones 248
6.2.3.2. Prueba de Independencia Ji-Cuadrado 255
Práctica domiciliaria 8 260
Bibliografía del capítulo 268

ii
BIOESTADISTICA

7. REFERENCIAS BIBLIOGRÁFICAS 270

Anexo: Resumen de Estimación y Prueba de Hipótesis 272

iii
BIOESTADISTICA

Lista de Cuadros

Cuadro 1. Clasificación de variables según escala de medición

Cuadro 2. Edad de mujeres sometidas a evaluación de porcentaje de saturación

de colesterol en bilis

Cuadro 3. Etapa de la enfermedad de pacientes con cáncer colorrectal

Cuadro 4. Frecuencia de bacteriemia en pacientes hipotéticos con cultivos de

catéter

Cuadro 5. Número de hijos por familia

Cuadro 6. Edad de pacientes

Cuadro 7. Codificación de categorías

Cuadro 8. Casos con calcificaciones pulmonares en dos poblaciones con fábrica

de asbestos, según distancia de los domicilios a la respectiva fábrica

Cuadro 9. Tasas específicas de calcificaciones pulmonares por distancias en dos

poblaciones

Cuadro 10. Casos esperados en población A, bajo condiciones de la población B

Cuadro 11. Exposición a dieta con frituras para casos y Controles

Cuadro 12. Probabilidad marginal y conjunta

Ccuadro 13. Nivel crítico de una prueba estadística: Interpretación

Cuadro 14. Pruebas paramétricas

Cuadro 15. Pruebas no paramétricas

Cuadro 16. Prueba de hipótesis para la media poblacional

Cuadro 17. Prueba de hipótesis para diferencia de medias

Cuadro 18. Estimacion por intervalo

iv
BIOESTADISTICA

Cuadro19. Prueba de hipótesis

Lista de Tablas

Tabla 1. Edad y porcentaje de sobresaturación de colesterol en bilis

Tabla 2. Arreglo ordenado según edad

Tabla 3. Data de la contaminación bacteriana y calificación de verduras

Tabla 4. Relación de muestras posibles para muestreo con reposición

Tabla 5. Relación de muestras posibles para muestreo sin reposición

Tabla 6: Cuantilas de la prueba de kolmogorov smirnov

Tabla 7: Cuantilas del test estadístico para normalidad de Lilliefors

Lista de Gráficos

Gráfico 1. Edad de mujeres sometidas a evaluación de porcentaje de saturación

de colesterol en bilis

Gráfico 2. Etapa de la enfermedad de pacientes con cáncer colorrectal

Gráfico 3.Frecuencia de bacteriemia en pacientes hipotéticos con cultivos de

catéter

Gráfico 4. Distribución acumulada de las mujeres según edad.

Gráfico 5. Distribución simétrica

Gráfico 6. Distribuiciones asimétricas

Gráfico 7. Clasificación de distribuciones según curtosis

Gráfico 8. Asignación de probabilidades

Gráfico 9. Diagrama de árbol

v
BIOESTADISTICA

Gráfico 10. Ordenamiento en círculo

Gráfico 11. Función de cuantía de variable discreta

Gráfico 12. Edad de mujeres trabajadoras en el sector textil

Gráfico 13. Función de densidad de variable continúa

Gráfico 14. Distribución de la edad de los niños (Población)

Gráfico 15. Distribución de la media muestral (Muestreo con reposición)

Gráfico 16. Distribución de la media muestral (Muestreo sin reposición)

Gráfico 17. Error de muestreo y cota superior

Gráfico 18. Error de muestreo al estimar la proporción poblacional

Gráfico 19. Tipos de error en la toma de decisión

Gráfico 20. Probabilidad de error tipo I (α) y de error tipo II (β)

Gráfico 21. Grupo sanguíneo de portadores y no portadores de antígeno

vi
BIOESTADISTICA

Prólogo

Esta publicación es fruto de los apuntes de clase desarrollados para mis alumnos

de la Facultad de Ingeniería Ambiental de la Universidad Nacional de Ingeniería,

los cuales empecé a compilar en el año 2003 como una guía del curso de

Bioestadística para agilizar el proceso enseñanza-aprendizaje y dinamizar las

clases con la modalidad de taller.

Los temas trabajados cubren en su totalidad el sillabus del curso de Bioestadística

en la Facultad de Ingeniería Ambiental y contiene 6 capítulos. En el primer capítulo

se desarrolla los métodos para la organización, resumen y presentación de datos,

así como la obtención de indicadores del riesgo de enfermedad. En el segundo

capítulo se estudia los conceptos de probabilidad, sus leyes y aplicaciones al área

de salud como son el cálculo de indicadores de la bondad de un método de

detección y su aplicación para el diagnóstico de enfermedades. En el tercer y

cuarto capítulos se ha tratado los temas de variables aleatorias, los modelos de

probabilidad para las poblaciones y las variables del muestreo. En los dos últimos

capítulos se ha trabajado los métodos de la inferencia estadística para la

obtención de estimaciones y realizar pruebas de hipótesis acerca de las

poblaciones bajo análisis.

vii
BIOESTADISTICA

Para cada tema se ha elaborado ejemplos aplicados los cuales serán resueltos en

clase con la participación de los estudiantes. Al final de cada capítulo se incluye un

listado de ejercicios y problemas denominado práctica domiciliaria.

Mg. Beatriz Castañeda Saldaña


Lima, enero 2007

viii
BIOESTADISTICA

INTRODUCCIÓN

La investigación científica es la búsqueda continua del conocimiento y la

estadística interviene en ella en la etapa de la experimentación y observación,

esto es, las observaciones experimentales y reconocimientos son partes

integrantes del método científico, el cual conduce al empleo de las técnicas

estadísticas, las que al ser utilizadas adecuadamente hacen más eficientes las

investigaciones. Por ello es necesario que todos los investigadores se

familiaricen con las técnicas y conceptos básicos de la ciencia Estadística.

ESTADÍSTICA

Es el campo de la ciencia que se ocupa de;

1) La recopilación, organización y resumen de los datos

2) La obtención de inferencias acerca de un conjunto de datos cuando sólo se

observa una parte de ellos1.

BIOESTADÍSTICA

Cuando los datos que se están analizando se obtienen de las ciencias

biológicas y de la salud, se utiliza el término de bioestadística para diferenciar a

esta aplicación particular de herramientas y conceptos estadísticos.

La ciencia estadística trata con:

- Diseño de experimentos

- Colección y manejo de datos

- Evaluación de medidas de resumen

Mg. Beatriz Castañeda S. 1


BIOESTADISTICA

- Estimación de parámetros poblacionales

- Prueba de hipótesis respecto a las poblaciones

- Estudio de la relación entre dos o más variables.

Población: En el contexto del manejo estadístico se considera dos acepciones:

- El conjunto de elementos para los cuales se tiene interés en

estudiar alguna característica (por ejemplo los niños de un

distrito)

- El conjunto de valores asociados a cada uno de los elementos

según la característica de interés (por ejemplo, si interesa

estudiar el peso de los niños, al medirlos se tendrá la población

de pesos de los niños del distrito)

Muestra: Es una parte de la población, de manera análoga a la población la

muestra puede referirse al subconjunto de elementos o al subconjunto de

valores correspondientes a los elementos para las características bajo estudio.

Unidades de observación: Son los elementos para los cuales se va a estudiar

sus características.

Variable: Es la característica que interesa estudiar para los elementos.

Mg. Beatriz Castañeda S. 2


BIOESTADISTICA

SELECCIÓN DE LOS MÉTODOS ESTADÍSTICOS

Antes de seleccionar un método estadístico debemos tomar dos decisiones:

1) Determinar cuál es la variable dependiente y cual es la independiente, y

2) Qué tipo de datos constituyen cada una de esas variables.

Clasificación de las variables en función de los objetivos de la

investigación

Variable dependiente: Puede identificarse como la variable de interés principal

o el desenlace principal del estudio. Queremos contrastar hipótesis o hacer

estimaciones, o efectuar ambos procedimientos, acerca de la variable

dependiente.

Variables independientes: Son las que determinan las características que es

necesario tener en cuenta o las condiciones en que se contrastan las hipótesis

o se realizan las estimaciones.

Tipos de variable y escala de medición

Además de caracterizar la función de las variables en el análisis, para

seleccionar el método estadístico para el manejo de los datos debemos

determinar el tipo de datos que constituyen las mediciones de cada variable.

Mg. Beatriz Castañeda S. 3


BIOESTADISTICA

Cuadro1. Clasificación de variables según escala de medición

Tipo de Descripción Escala Ejemplo


variable
Nominal -sexo
(no establece -estado civil
Categórica Clasifica a los elementos orden) -raza
en categorías o clases Ordinal -Dolor
-Color (intensidad)
(orden en -Estadío de
categorías) enfermedad
- número de hijos
Cuando asume valores - Discretos - número de fallas
Cuantitativa cuantitativos (numéricos) - Continuos - Edad
- talla
- peso
-tiempo de
enfermedad

Mg. Beatriz Castañeda S. 4


BIOESTADISTICA

CAPÍTULO 1. ESTADISTICA DESCRIPTIVA


La estadística descriptiva se ocupa de la organización y resumen de datos para

la mejor descripción de los elementos bajo estudio según la o las

características de interés.

1.1. Organización de datos

Para la descripción de un conjunto de datos el primer procedimiento consiste

en organizarlos presentándolos en un listado en forma ascendente y

agrupándolos para ser presentados en tablas y gráficos de frecuencias.

Ejemplo 1.1. El siguiente cuadro proporciona la edad y el porcentaje de

sobresaturación de bilis para una muestra de 31 varones y 29 mujeres en un

estudio sobre la formación de cálculos de colesterol en la vesícula.

Tabla 1. Edad y porcentaje de sobresaturación de colesterol en bilis

Varones Mujeres
% de % de
Sujeto Edad Sobresaturación Sujeto Edad Sobresaturación
1 23 40 1 40 65
2 31 86 2 33 86
3 58 111 3 49 76
4 25 86 4 44 89
5 63 106 5 63 142
6 43 66 6 27 58
7 67 123 7 23 98
8 48 90 8 56 146
9 29 112 9 41 80
10 26 52 10 30 66
11 64 88 11 38 52
12 55 137 12 23 35
13 31 88 13 35 55
14 20 80 14 50 127

Mg. Beatriz Castañeda S. 5


BIOESTADISTICA

15 23 65 15 47 77
16 43 79 16 36 91
17 27 87 17 74 128
18 63 56 18 53 75
19 59 110 19 41 82
20 53 106 20 25 69
21 66 110 21 57 84
22 48 78 22 42 116
23 27 80 23 49 73
24 32 47 24 60 87
25 62 74 25 23 46
26 36 58 26 48 107
27 29 88 27 44 84
28 27 73 28 37 120
29 65 118 29 57 123
30 42 67
31 60 57
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

Para describir la edad de las personas en el estudio ordenamos las edades

ascendentemente:

Tabla 2. Arreglo ordenado según edad

Varones Mujeres
% de % de
Orden Sujeto Edad Sobresaturación Orden Sujeto Edad Sobresaturación
1 14 20 80 1 7 23 98
2 1 23 40 2 12 23 35
3 15 23 65 3 25 23 46
4 4 25 86 4 20 25 69
5 10 26 52 5 6 27 58
6 17 27 87 6 10 30 66
7 23 27 80 7 2 33 86
8 28 27 73 8 13 35 55
9 9 29 112 9 16 36 91
10 27 29 88 10 28 37 120
11 2 31 86 11 11 38 52
12 13 31 88 12 1 40 65
13 24 32 47 13 9 41 80
14 26 36 58 14 19 41 82
15 30 42 67 15 22 42 116
16 6 43 66 16 4 44 89
17 16 43 79 17 27 44 84
18 8 48 90 18 15 47 77
19 22 48 78 19 26 48 107
20 20 53 106 20 3 49 76
21 12 55 137 21 23 49 73

Mg. Beatriz Castañeda S. 6


BIOESTADISTICA

22 3 58 111 22 14 50 127
23 19 59 110 23 18 53 75
24 31 60 57 24 8 56 146
25 25 62 74 25 21 57 84
26 5 63 106 26 29 57 123
27 18 63 56 27 24 60 87
28 11 64 88 28 5 63 142
29 29 65 118 29 17 74 128
30 21 66 110
31 7 67 123
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

El arreglo nos permite apreciar que el grupo de varones tienen edades

ligeramente menores que las mujeres, pero para tener información de la

tendencia de la edad para los varones y mujeres es mejor organizar los datos

en forma agrupada.

Agrupamiento de datos

Según la cantidad y tipo de datos estos se pueden agrupar de dos maneras:

a) Agrupamiento por intervalos: Para datos cuantitativos

b) Por conteo individual: Según categoría o valor diferente

a) Agrupamiento por intervalos

Para la mejor descripción o lectura de las edades, las agrupamos y

presentamos en una tabla de frecuencias por intervalos e ilustramos con un

gráfico de histograma de frecuencias como sigue

Criterios para determinar los intervalos

1) Determinar los valores mínimo y máximo

2) Calcular la amplitud o rango de los datos R = Máx – Mín

Mg. Beatriz Castañeda S. 7


BIOESTADISTICA

3) Determinar el número de intervalos (k) o la longitud de cada intervalo

(c), como:

K = R/c o c = R/k

Sugerencias:

a) 5 ≤ k ≤ 10

b) Todos los intervalos deben ser de igual longitud y de preferencia determinar

c como una medida que nos proporcione intervalos de fácil lectura

Lo más importante es el criterio propio y el sentido común. No existe regla

precisa para la determinación del número de intervalos (k), generalmente

tratamos de no tener muchos, ni muy pocos. La razón básica para agrupar los

datos es revelar la forma de la distribución utilizando un número moderado de

intervalos.

En el cuadro 2 se presenta el agrupamiento de las mujeres por intervalos de

edad en la muestra del ejemplo 1.1

Cuadro2: Edad de mujeres sometidas a evaluación de


porcentaje de saturación de colesterol en bilis
Nº de
Edad (años) mujeres Porcentaje
20 - 29 5 17%
30 - 39 6 21%
40 - 49 10 34%
50 - 59 5 17%
60 - 69 2 7%
70 - 79 1 3%
Total 29 100%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

Mg. Beatriz Castañeda S. 8


BIOESTADISTICA

Histograma de frecuencias

Se utiliza para representar frecuencias simples (absolutas o porcentuales) de

datos continuos. Se construye dibujando un eje en el cual se indican los

intervalos de clase, luego se dibuja una serie de rectángulos que tienen como

base los intervalos de clase y cuyas superficies deben ser proporcionales a las

frecuencias correspondientes a cada intervalo. En el caso de que todos los

intervalos sean de igual amplitud, la altura de cada rectángulo será

proporcional a la frecuencia. Si los intervalos tienen amplitudes diferentes,

entonces, las alturas son llamadas densidad de frecuencia.

Gráfico 1

Edad de mujeres sometidas a evaluación de


porcentaje de saturación de colesterol en bilis

12
10
Nº de mujeres

8
6
4
2
0
10 - 19 20 - 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 80 - 89
Edad (años)

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

Polígono de frecuencias

Es un gráfico que se utiliza, también, para representar las frecuencias simples

(absolutas o porcentuales) de datos continuos. Se construye uniendo con

segmentos los puntos correspondientes a los puntos medios y densidad de

frecuencias de cada intervalo (Ver gráfico 1)

Mg. Beatriz Castañeda S. 9


BIOESTADISTICA

El polígono de frecuencias nos permite visualizar la forma de la distribución y

en base a ella poder ajustarla a un modelo de probabilidad. Para el uso

descriptivo con este gráfico podemos representar, simultáneamente, la

distribución de frecuencias de dos o más subconjuntos de datos para efectos

de comparación de tendencias de agrupamiento; en este caso se sugiere

graficar las frecuencias porcentuales para evitar distorsiones debido a la

diferencia en los tamaños de muestra.

b) Agrupamiento por conteo individual

Si los datos son categóricos o de tipo discreto los ordenamos en cuadros de

frecuencia por conteo individual e ilustramos con un gráfico de barras. Por

ejemplo en el cuadro 3 se presenta el agrupamiento de pacientes según etapa

de gravedad de la enfermedad.

Cuadro 3. Etapa de la enfermedad de pacientes con cáncer colorrectal

Etapa de la Número de
enfermedad pacientes Porcentaje
1 3 3%
2 28 24%
3 63 55%
4 21 18%
Total 115 100%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (31)

Gráfico de barras

Se utiliza para representar frecuencias simples (absolutas o porcentuales) de

datos categóricos o discretos. Se construye dibujando un eje en el cual se

Mg. Beatriz Castañeda S. 10


BIOESTADISTICA

indican las categorías o valores diferentes de la variable, luego se dibujan

barras de igual ancho y cuyas longitudes deben ser proporcionales a las

frecuencias correspondientes a cada categoría.

Gráfico 2

Etapa de la enfermedad de pacientes


con cáncer colorrectal
Número de pacientes

70
60
50
40
30
20
10
0
1 2 3 4
Etapa de la enfermedad

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (31)

Datos Nominales

Si los datos son nominales ilustramos sus frecuencias con un gráfico pastel, el

cual tiene por objeto mostrar que parte del todo es cada categoría, como se

aprecia en el cuadro 4 y gráfico 3.

Cuadro 4. Frecuencia de bacteriemia en pacientes hipotéticos


Con cultivos de catéter

Nº de
Bacteriemia pacientes %
Si 4 20%
No 16 80%
Total 20 100%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (28)

Mg. Beatriz Castañeda S. 11


BIOESTADISTICA

Gráfico 3

Frecuencia de bacteriemia en pacientes


hipotéticos con cultivos de catéter

20%

Si
No

80%

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, Manual Moderno 1997 (28)

1.2. MEDIDAS DE RESUMEN

Llamadas también medidas descriptivas por que tienen por objeto describir la

naturaleza de la característica en estudio.

MEDICIÓN DE DATOS NUMÉRICOS

Medidas de Posición. Indican los valores que tienden a tomar los datos

- Media aritmética o promedio

- Moda

- Cuantilas: Mediana, cuartiles, deciles, percentiles

Medidas de dispersión. Indican la variabilidad de los datos

- Amplitud o rango

- Varianza y desviación estándar

Mg. Beatriz Castañeda S. 12


BIOESTADISTICA

- Coeficiente de Variación

Medidas de forma. Indican la deformación horizontal y vertical de los datos.

- Asimetría

- Curtosis

MEDICIÓN DE DATOS NOMINALES

- Proporciones y Porcentajes

- Razones

- Medición epidemiológica:

* Tasa. Ajuste de tasas

* Riesgo Relativo (RR)

* Odds Ratio (OR)

1.2.1 Medidas de Posición

Media aritmética o promedio

∑x i
Media Poblaciona l : µ = i =1
; N = Número de elementos en la población
N

∑x i
Media Muestral : x= i =1
; n = Número de elementos en la muestra
n

Mg. Beatriz Castañeda S. 13


BIOESTADISTICA

Es una medida de posición que proporciona el valor que tiende a tomar la

variable para la mayoría de los elementos en la población o muestra, según

corresponda.

Por su forma de cálculo describe el centro de los datos en el sentido de un

centro de gravedad o punto de equilibrio, por ello se la considera como una

medida de tendencia central.

Obtención de la media para datos agrupados

k k

∑x i ni ∑x i ni
Media Poblacional : µ = i =1
; Media Muestral : x= i =1
;
N n
x i = Valor individual o punto medio del intervalo
k = Número de valores diferentes o de intervalos

Obtención de la media para agrupamiento por conteo individual

Ejemplo 1.2. En el cuadro 4 se presenta el agrupamiento de 64 familias según

el número de hijos por familia y los productos del número de hijos (xi) por el

número de familias (ni) para cada valor individual de la variable

Cuadro 5. Número de hijos por familia


nº de hijos nº de familias
(xi) (ni) xi ni
0 4 0
1 8 8
2 11 22
3 15 45
4 10 40
5 13 65
6 3 18
TOTAL 64 198
Fuente: Datos simulados por el autor

Mg. Beatriz Castañeda S. 14


BIOESTADISTICA

Media x = 198 = 3.09 ≅ 3 hijos por familia


64

Luego las familias tienen en promedio 3 hijos por familia.

Obtención de la media para agrupamiento por intervalo

Ejemplo 1.3. En el cuadro 6 se presenta los intervalos de la edad y sus puntos

medios de cada intervalo, así como la frecuencia respectiva para una muestra

de 75 pacientes de una cierta enfermedad.

Cuadro 6. Edad de pacientes

Edad xi * ni xi ni
5 – 14 9.5 5 47.5
15 – 24 19.5 10 195.0
25 – 34 29.5 20 590.0
35 – 44 39.5 22 869.0
45 – 54 49.5 13 643.5
55 – 64 59.5 5 297.5
TOTAL 75 2642.5
Fuente: Datos simulados por el autor

Media: x = 2642.5 = 35.23 años


75

Las personas en la muestra tienen en promedio 35 años, es decir, la mayoría

de las personas en la muestra tienen alrededor de 35 años.

Moda

Es el valor que ocurre con mayor frecuencia, por lo que se considera que

representa a los datos por ser el valor más probable

Ejemplo 1.4. De los cuadros 4 y 5 obtenemos:

o Para el número de hijos por familia: Moda = 3 hijos

Mg. Beatriz Castañeda S. 15


BIOESTADISTICA

o Para la edad: 35 – 44 años es el intervalo modal

Moda = 39.5 años *

* En el manejo de datos, para efectos descriptivos, se asume que los

datos que toman medida en un intervalo dado se distribuyen

uniformemente dentro de él estableciéndose una relación de

proporcionalidad entre el tamaño del intervalo y la frecuencia

correspondiente, de esta manera el punto medio representa a los datos en

el intervalo.

CUANTILAS O CUANTILES

Cuantila : X p

Es un valor en el recorrido de la variable en el que se acumula una porción p de

datos con medida máxima el valor de la cuantila, es decir, un porcentaje (p x

100) de datos toma medidas menores o iguales a X p y el resto toma medida

mayores o iguales a X p.

A las cuantilas se las denomina de manera particular según la porción

acumulada a la izquierda del punto.

Mediana: Me = X0.50

Indica que la mitad o el 50% de los datos toma medidas menor o igual a Me y

el otro 50% toma medida mayor o igual a Me, por ejemplo

Edad mediana = 36 años

Mg. Beatriz Castañeda S. 16


BIOESTADISTICA

Indica que el 50% de las personas tienen edad máxima 36 años y que el otro

50% tiene mínimo 36 años.

Cuartiles : q1 = X0.25 ; q2 = X0.50 ; q3 = X0.75

Son puntos que dividen al conjunto de datos en 4 partes, esto es en cada parte

se acumula 25% de los datos, por ejemplo

q1 = X0.25 = 27 años ; q3 = X0.75 = 45 años

Indica que el 25% de las personas tienen hasta 27 años y que el 75% tiene a

lo más 45 años, es decir el 50% tiene edad entre los 27 y 45 años.

Déciles: d1 = X0.10 ; d2 = X0.20 ; ........ ; d9 = X0.90

Son puntos que dividen al conjunto de datos en 10 partes donde cada una

acumula el 10% de datos, por ejemplo

d1 = X0.10 = 17 años ; d8 = X0.80 = 52 años

Indica que el 10% de las personas tienen a lo más 17 años y que el 80% tiene

máximo 52 años, también podemos deducir que el 70% de las personas tiene

edad entre los 17 y 52 años.

Percentiles: P1 = X0.01 ; P2 = X0.02 ; ........ ; P99 = X0.99

Son puntos que dividen al conjunto de datos en 100 partes cada una con 1%

de los datos, por ejemplo

P20 = X0.20 = 23 años ; P95 = X0.95 = 57 años

Mg. Beatriz Castañeda S. 17


BIOESTADISTICA

Indica que el 20% de las personas tiene máximo 20 años y que sólo el 5% de

las personas tiene más de 57 años, también podemos deducir que el 75% de

las personas tienen edad entre los 23 y 57 años.

OBTENCIÓN DE LAS CUANTILAS

a) Para datos no agrupados. Luego de ordenar los datos ascendentemente

se determina la cuantila p como el valor que ocupa el lugar r

X p = X(r)

Donde: r=nxp (si r no es entero redondear al entero superior)

Ejemplo 1.5. Consideremos nuevamente los datos del ejemplo 1.1 ordenados

según edad (Tabla 2)

Arreglo ordenado según edad

Varones Mujeres
% de % de
Orden Sujeto Edad Sobresaturación Orden Sujeto Edad Sobresaturación
1 14 20 80 1 7 23 98
2 1 23 40 2 12 23 35
3 15 23 65 3 25 23 46
4 4 25 86 4 20 25 69
5 10 26 52 5 6 27 58
6 17 27 87 6 10 30 66
7 23 27 80 7 2 33 86
8 28 27 73 8 13 35 55
9 9 29 112 9 16 36 91
10 27 29 88 10 28 37 120
11 2 31 86 11 11 38 52
12 13 31 88 12 1 40 65
13 24 32 47 13 9 41 80
14 26 36 58 14 19 41 82
15 30 42 67 15 22 42 116
16 6 43 66 16 4 44 89
17 16 43 79 17 27 44 84
18 8 48 90 18 15 47 77
19 22 48 78 19 26 48 107

Mg. Beatriz Castañeda S. 18


BIOESTADISTICA

20 20 53 106 20 3 49 76
21 12 55 137 21 23 49 73
22 3 58 111 22 14 50 127
23 19 59 110 23 18 53 75
24 31 60 57 24 8 56 146
25 25 62 74 25 21 57 84
26 5 63 106 26 29 57 123
27 18 63 56 27 24 60 87
28 11 64 88 28 5 63 142
29 29 65 118 29 17 74 128
30 21 66 110
31 7 67 123

Para la variable Edad

Varones Mujeres

X0.50 = 43 años (np = 15.5) X0-50 = 42 años (np = 14.5)

X0.25 = 27 años (np = 7.75) X0.25 = 35 años (np = 7.25)

X0.90 = 64 años (np = 27.9) X0.90 = 60 años (np = 26.1)

b) Para datos agrupados

1) Agrupamiento por conteo individual. Datos agrupados ascendentemente

xi ni Ni
X1 n1 N1
X2 n2 N2
... ... ...
Xj-1 nj-1 Nj-1
xj nj Nj
... ... ...
xk nk Nk

Utilizamos las frecuencias acumuladas para determinar la cuantila, de esta


manera

Xp = xj Si y sólo si Nj ≥ np y Nj-1 < np

Ejemplo 1.6. Del ejemplo 1.4. y del cuadro 4 obtenemos las frecuencias

acumuladas con las que determinamos los percentiles 10, 25, 50, 75, 90 y 95

Mg. Beatriz Castañeda S. 19


BIOESTADISTICA

nº de nº de Nº acumulado
hijos familias de familias
(xi) (ni) Ni
0 4 4
1 8 12
2 11 23
3 15 38
4 10 48
5 13 61
6 3 64
Total 64

P10 = X0.10 = 1 pues np = 0.10 x 64 = 6.4

P25 = X0.25 = 2 pues np = 0.25 x 64 = 16

P50 = X0.50 = 3 pues np = 0.50 x 64 = 32

P75 = X0.75 = 4 pues np = 0.75 x 64 = 48

P90 = X0.90 = 5 pues np = 0.90 x 64 = 57.6

P95 = X0.95 = 5 pues np = 0.95 x 64 = 60.8

2) Datos agrupados por intervalos: Consideramos las frecuencias simples

(ni) y las frecuencias acumuladas (Ni).

Intervalos ni Ni
L1I – L1s n1 N1
L2I – L2s n2 N2
.......... ... ...
Lj-1 I – L1j-1 s nj-1 Nj-1
LjI – Ljs nj Nj
......... ... ...
L1I – L1s nk Nk

1) Se determina el intervalo que contiene a la cuantila Xp como eIntervalo j:

LjI – Ljs Si y sólo si Nj ≥ np y Nj-1 < np

2) X p = L jI + c
(np − N )j −1
, donde
nj

Mg. Beatriz Castañeda S. 20


BIOESTADISTICA

c: Amplitud del intervalo j

LjI: Frontera de clase del intervalo j (el punto medio entre los extremos

consecutivos para intervalos discretos) o límite inferior para intervalos

continuos.

Ejemplo 1.7. Consideremos la distribución de la edad de la muestra de

mujeres del ejemplo 1.1 presentadas en el cuadro 2 para la cual

obtendremos los percentiles 25, 50 y 95.

Edad de mujeres sometidas a evaluación de


porcentaje de saturación de colesterol en bilis

Nº de
Edad (años) mujeres Porcentaje Nº acumulado
20 - 29 5 17% 5
30 - 39 6 21% 11
40 - 49 10 34% 21
50 - 59 5 17% 26
60 - 69 2 7% 28
70 - 79 1 3% 29
Total 29 100%

P25 = 29.5 + 10 (7.25 – 5) = 33.5 años


6

P50 = 39.5 + 10 (14.5 – 11) = 43 años


10

P95 = 59.5 + 10 (27.55 – 26) = 67.25 años


2

Mg. Beatriz Castañeda S. 21


BIOESTADISTICA

Otra manera de obtener las cuantilas es a partir del gráfico de frecuencias

acumuladas en porcentaje, para lo cual el gráfico debe ser hecho a escala para

facilitar la aproximación, como se ilustra en el gráfico 4 para el percentil 50, el

cual aproximadamente sería igual a 43 años.

Gráfico 4

Distribución acumulada de las mujeres


100%
según edad
90%
80%
% de mujeres

70%
60%
50%
40%
30%
20%
10%
0%
20 29 39 49 59 69 79 Total
43 Edad (años)

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

1.2.2. Medidas de dispersión

1. Amplitud o rango:

Mide la variación total indicando los valores mínimo y máximo del conjunto de

datos, por ejemplo para las edades de las mujeres en el ejemplo 1.1,

Rango: 23 – 74 años

2. Varianza y desviación estándar

Miden la dispersión de los datos indicando en cuanto tienden a variar los datos

con respecto a la media.

Mg. Beatriz Castañeda S. 22


BIOESTADISTICA

N N

∑ ( xi − µ )2 ∑x 2
i
σ2 = i
= 1
− µ 2 Varianza Poblaciona l
N N

n n

∑(x ∑x
2
i − x) 2 2
i −n x
S2 = i
= 1
Varianza muestral
n−1 n−1

Desviación estándar σ = σ2 S= S2
La varianza indica cuan representativa de los datos es la media aritmética, ya

que una varianza pequeña indica que los datos están cerca de la media, en

cambio una varianza grande indica que los datos están alejados de la media.

La varianza expresa la dispersión en unidades al cuadrado y la desviación

estándar indica la tendencia de dispersión alrededor de la media en las mismas

unidades de los datos.

Ejemplo 1.8. Los siguientes son los niveles de hemoglobina (g/100ml) de 10

niños que reciben tratamiento para anemia hemolítica:

9,1 ; 10,0 ; 11,4 ; 12,4 ; 9,8 ; 8,3 ; 9,9 ; 9,1 ; 7,5 ; 6,7

9,1 + 10,0 + ... + 6,7 94,2


x= = = 9,42 g / 100ml
10 10

9,1 2 + 10,0 2 + ... + 6,7 2 − 10(9,42) 2 913,42 − 887,364


S =
2
= = 2,895
9 9
Luego S = 1,70 g/100ml

Mg. Beatriz Castañeda S. 23


BIOESTADISTICA

Los niños tienen en promedio 9,42 g/100ml de hemoglobina y esta tiende a

variar en 1,7g/100ml respecto a la hemoglobina promedio.

S
Coeficiente de Variación: C .V . = x 100
x
Indica la variabilidad de los datos en unidades porcentuales de media.

Esta medida nos indica cuan grande o pequeña es la desviación estándar.

Se utiliza para comparar la variabilidad de 2 o más grupos de datos.

1.7
Por ejemplo para la hemoglobina de los niños C .V . = x 100 = 18%
9.42

Calculo de la varianza para datos agrupados


k k

∑ ( x i − x ) 2 ni ∑x
2
2
i ni − n x
S2 = i
= 1
Varianza muestral
n−1 n−1
Donde: K: Número de intervalos
Xi: Punto medio de cada intervalo
ni: Frecuencia simple para el intervalo

Ejemplo 1.9. La siguiente tabla muestra la distribución de edades de casos de

una cierta enfermedad del ejemplo 1.3 y cuadro 6

Edad (años) xi ni xi ni Xi2 ni


5 –14 9.5 5 47.5 451.25
15 – 24 19.5 10 195.0 3802.50
25 – 34 29.5 20 590.0 17405.00
35 – 44 39.5 22 869.0 34325.50
45 – 54 49.5 13 643.5 31853.25
55 – 64 59.5 5 297.5 17701.25
Total 75 2645.5 105538.75

Mg. Beatriz Castañeda S. 24


BIOESTADISTICA

2645.5
x= = 35.27 años
75

105538 .75 − 75( 35.27 )2


S =
2
= 165.42 S = 12.86 años
74

12.86
C .V . = x 100 = 36.5%
35.27

Los resultados nos indican que los pacientes en promedio tienen 35 años y

que sus edades tienden a dispersase en aproximadamente 13 años respecto

de la edad promedio, es decir, la dispersión de la edad es el 36,5% de la edad

promedio.

1.2.3. Medidas de forma

Indican la dirección en la dispersión de los datos respecto de su centro y

completan la descripción de las distribuciones de frecuencia.

Asimetría

Indica la deformación horizontal de las distribuciones de frecuencia con

respecto a la media aritmética. Para una distribución unimodal tenemos tres

situaciones:

a) La distribución es simétrica, en cuyo caso la media, mediana y moda

coinciden y las frecuencias simples para cada punto equidistante de la

media son iguales.

Mg. Beatriz Castañeda S. 25


BIOESTADISTICA

Mo = x = Me

Gráfico 5. Distribución simétrica

b) La distribución es asimétrica, es decir, los datos se concentran a uno de los

extremos y aparecen con poca frecuencia hacia el otro extremo.

Asimetría Negativa Asimetría Positiva

x Me Mo Mo Me x

Gráfico 6. Distribuciones asimétricas

3 ( x − Me )
Coeficiente de asimetría de Pearson: S kP =
S

Si SkP = 0, la distribución es simétrica

Si S kP < 1 , la distribución tiene una asimetría leve

Si 1 < S kP < 2 , la distribución tiene asimetría moderada

Si S kP > 2 , la distribución tiene una asimetría severa

Mg. Beatriz Castañeda S. 26


BIOESTADISTICA

Curtosis

Es una medida de la deformación vertical de una distribución de frecuencias, es

decir, nos indica el apuntamiento o achatamiento de la curva, lo cual está

relacionado con la dispersión de los datos.

Platicúrtica Mesocúrtica Leptocúrtica

Gráfico 7. Clasificación de distribuciones según curtosis

( x0.75 − x0.25 )
Coeficiente de curtosis: K=
2 ( x0.90 − x0.10 )

Disribución platicúrtica: k → 0 , es decir, los datos están ampliamente

esparcidos y la curva es aplanada.

Distribución Mesocúrtica: k → 0.25 , esto ocurre cuando los datos tienen una

dispersión moderada. Por ejemplo en el caso de la distribución normal

mesocúrtica K = 0.263

Distribución Leptocúrtica: k → 0.5 , esto ocurre cuando los datos están

concentrados en un intervalo estrecho, es decir, tienen una dispersión

pequeña.

Mg. Beatriz Castañeda S. 27


BIOESTADISTICA

PRACTICA DOMICILIARIA 1

1. Los siguientes datos son parte de los resultados de una investigación

acerca del reuso de aguas residuales y su impacto en los cultivos. Aquí se

presentan los datos recopilados para el logaritmo del coliforme fecal en el

agua de irrigación y la verdura para una muestra de 100 productos

agrícolas, los que fueron irrigados con agua de diferente calidad bacteriana.

Se indica también la procedencia, el tipo de crecimiento y la calificación de

cada producto para el consumo humano.

La codificación utilizada es:

Cuadro 7. Codificación de categorías


Variable Categoría Código
Cieneguilla (agua de río) 1
Procedencia San Juan (agua tratada) 2
(Proced) San Martín (agua residual) 3
Callao (agua residual) 4
Tipo de VBT (verdura bajo tierra) 1
Crecimiento VFT (verdura a flor de tierra) 2
(T.C.) VTA (verdura de tallo alto) 3
Calificación Aceptado 1
del producto Provisionalmente aceptado 2
(Calif-P) Rechazado 3
Fuente: Evaluación de Riesgos para la salud por el uso de aguas residuales en agricultura.
Anexo 3: Aspectos Microbiológicos. CEPIS-OPS. Lima, Perú. 1990.

Tabla 3. Data de la contaminación bacteriana y calificación de verduras


Caso Proced T.C. Logcfa logcfv Calif-P Caso Proced T.C. Logcfa logcfv Calif-P
1 1 1 1.30 0.47 1 51 3 2 7.56 0.79 2
2 2 1 5.48 2.20 3 52 3 2 8.10 2.24 3
3 3 1 7.70 2.20 3 53 3 2 8.20 4.72 3
4 3 1 7.60 0.48 1 54 3 2 7.70 2.60 3
5 3 1 7.60 0.30 1 55 3 2 8.20 5.20 3
6 3 1 8.20 1.76 3 56 3 2 8.10 0.66 1
7 3 1 8.10 0.30 1 57 3 2 7.60 2.17 3
8 3 1 7.56 0.92 2 58 3 2 8.13 0.95 1
9 3 1 8.10 2.78 3 59 3 2 8.13 4.11 3
10 3 1 7.70 2.90 3 60 3 2 7.70 2.75 3
11 3 1 8.10 2.45 3 61 3 2 8.13 4.11 3

Mg. Beatriz Castañeda S. 28


BIOESTADISTICA

Caso Proced T.C. Logcfa logcfv Calif-P Caso Proced T.C. Logcfa logcfv Calif-P
12 4 1 7.70 2.17 3 62 3 2 8.10 2.10 3
13 4 1 7.78 0.73 2 63 3 2 7.70 2.52 3
14 4 1 7.90 0.40 1 64 3 2 8.20 5.14 3
15 4 1 7.81 3.13 3 65 3 2 7.70 2.85 3
16 4 1 9.96 2.30 3 66 3 2 8.10 3.94 3
17 4 1 7.70 2.14 3 67 3 2 7.70 3.17 3
18 4 1 7.60 4.47 3 68 3 2 8.10 0.64 1
19 4 1 7.60 3.01 3 69 3 2 7.60 0.69 2
20 4 1 7.70 2.14 3 70 3 2 8.13 3.38 3
21 4 1 7.70 0.30 1 71 4 2 7.78 2.52 3
22 4 1 8.96 3.14 3 72 4 2 7.90 0.69 2
23 4 1 7.78 0.50 1 73 4 2 7.81 1.59 2
24 4 1 7.70 0.34 1 74 4 2 7.78 1.21 2
25 4 1 7.60 4.20 3 75 4 2 7.60 0.63 2
26 1 2 1.90 0.41 1 76 4 2 7.70 0.54 1
27 1 2 2.36 0.73 2 77 4 2 8.96 2.61 3
28 1 2 1.90 0.30 1 78 4 2 7.90 2.27 3
29 1 2 1.90 1.02 1 79 4 2 8.96 2.21 3
30 1 2 3.48 0.30 1 80 4 2 7.70 0.49 1
31 1 2 2.36 1.64 2 81 4 2 7.90 3.69 3
32 1 2 1.30 0.36 1 82 4 2 7.70 1.97 3
33 1 2 1.30 0.34 1 83 4 2 7.70 1.66 3
34 1 2 2.36 0.30 1 84 4 2 7.70 1.84 3
35 1 2 2.36 0.64 1 85 4 2 7.81 1.61 2
36 1 2 1.30 0.43 1 86 4 2 7.81 3.02 3
37 1 2 3.48 2.84 3 87 1 3 1.30 0.85 1
38 1 2 1.30 0.30 1 88 1 3 1.30 0.85 1
39 1 2 3.48 0.86 2 89 1 3 3.48 0.30 1
40 2 2 5.48 1.62 3 90 1 3 1.30 0.30 1
41 2 2 4.34 3.14 3 91 1 3 1.90 0.30 1
42 2 2 5.48 1.23 2 92 1 3 2.36 0.36 1
43 2 2 5.48 1.46 2 93 2 3 5.48 1.52 2
44 2 2 4.34 3.14 3 94 2 3 4.34 2.37 3
45 3 2 8.13 2.27 3 95 3 3 8.20 1.04 2
46 3 2 7.56 3.20 3 96 3 3 7.60 2.11 3
47 3 2 8.10 3.28 3 97 3 3 7.70 3.10 3
48 3 2 8.20 4.20 3 98 4 3 7.60 0.30 1
49 3 2 7.56 1.07 3 99 4 3 7.70 1.28 3
50 3 2 8.10 3.28 3 100 4 3 7.81 0.30 1
Fuente: Evaluación de Riesgos para la salud por el uso de aguas residuales en agricultura.
Anexo 3: Aspectos Microbiológicos. CEPIS-OPS. Lima, Perú. 1990

a) Obtener la distribución de frecuencia cada variable. Asígnele títulos.

b) Elaborar los siguientes gráficos:

Mg. Beatriz Castañeda S. 29


BIOESTADISTICA

- Histograma de frecuencias para logcfa y logcfv

- Gráfico de barras para procedencia

- Gráfico pastel para tipo de crecimiento

- Gráfico pastel para la calificación del producto

c) Obtener las medidas de resumen para las variables cuantitativas (mínimo,

máximo, cuartiles, media, desviación estándar, coeficiente de variación).

Interpretar los resultados.

d) Obtener las tablas de frecuencia bivariante para

- Procedencia y calificación del producto

- Tipo de crecimiento y procedencia de los productos.

e) Comparar el logcfv por tipo de crecimiento.

2. Los siguientes datos fueron obtenidos al aplicar una encuesta a una

muestra de personas a las que se les realizó una densitometría, con el

objeto de establecer la asociación de variables con la densidad de masa

ósea. Las variables consideradas fueron: Raza, Sexo, Edad, Contextura,

Ejercicio físico a la semana (ejercicio), Número de cigarrillos al día

(cigarrillos), Tratamiento con cortisona (Tcortisona), Ingesta de lácteos

(lácteos), densidad de masa ósea en g/cm² (DMO).

Persona Raza Sexo Edad Contextura Ejercicio Cigarrillos Tcortisona Lácteos DMO
1 Mestiza F 42 Delgada 2 2 No Mucho 0.79
2 Blanca F 36 Gruesa 0 1 No Poco 0.89
3 Negra F 28 Gruesa 4 2 si Mucho 1.12
4 Blanca M 51 Mediana 2 6 si Nada 0.73
5 Blanca F 47 Delgada 3 1 si Nada 0.69
6 Mestiza F 25 Delgada 1 2 No Poco 0.99
7 Negra M 53 Gruesa 1 0 si Poco 0.84
8 Mestiza F 44 Delgada 0 5 No Nada 0.74
9 Blanca F 70 Mediana 1 0 No Mucho 0.78

Mg. Beatriz Castañeda S. 30


BIOESTADISTICA

10 Blanca F 32 Gruesa 3 4 No Mucho 1.01


11 Blanca F 46 Delgada 4 4 si Poco 0.70
12 Mestiza M 48 mediana 2 0 si Nada 0.83
13 Mestiza F 26 Gruesa 1 2 No Nada 1.07
14 Blanca F 64 Delgada 1 5 si Poco 0.68
15 Negra F 71 Delgada 0 3 si Nada 0.71
16 Negra F 48 Delgada 0 1 si Poco 0.92
17 Blanca M 62 Gruesa 2 2 No Poco 0.77
18 Blanca F 55 Gruesa 1 1 si Mucho 0.84
19 Negra F 68 Mediana 1 0 No Mucho 0.93
20 Blanca M 73 Mediana 2 4 No Nada 0.72
21 Negra F 77 Delgada 0 2 No Poco 0.82
22 Blanca F 56 Delgada 0 5 si Poco 0.66
23 Blanca F 80 Delgada 1 6 si Nada 0.68
24 Blanca M 49 Mediana 3 0 No Poco 1.03
25 Blanca F 38 Gruesa 1 1 No Mucho 0.97
26 Mestiza F 64 Gruesa 3 1 si Mucho 0.81
27 Blanca F 45 Gruesa 3 0 si Poco 0.84
28 Negra M 82 Mediana 2 2 si Nada 0.78
29 Blanca F 31 Delgada 3 0 No Nada 1.04
30 Blanca F 67 Gruesa 1 1 No Nada 0.72

a) Obtener la distribución de frecuencia de raza, sexo, edad, contextura,

ejercicio semanal. Asígnele títulos.

b) Elaborar los siguientes gráficos:

- Histograma de frecuencias para edad

- Gráfico de barras para raza

- Gráfico pastel para sexo

- Gráfico pastel para contextura

- Gráfico de barras para ejercicio semanal

c) Obtener las medidas de resumen para las variables cuantitativas (mínimo,

máximo, cuartiles, media, desviación estándar, coeficiente de variación) .

Interpretar los resultados.

d) Comparar la edad entre hombres y mujeres.

e) Comparar la DMO por raza.

Mg. Beatriz Castañeda S. 31


BIOESTADISTICA

1.2.4. MEDICIÓN DE DATOS NOMINALES


Proporción

Una proporción es la comparación por cociente entre el número de elementos

de un subconjunto y el número de elementos del conjunto al que pertenece el

subconjunto. Indica que parte del todo es el subconjunto.

a
p=
a+b

175 casos de cáncer pulmonar


Ejemplo: p= = 0,09
1956 casos de todos los tipos de cáncer

Porcentaje

Un porcentaje es una proporción multiplicada por 100. Indica la parte en

unidades por ciento, esta medida es más fácil de asimilar y trasmitir que la

proporción, en el ejemplo anterior

El 9% de los casos de cáncer fueron de cáncer pulmonar.

Razón

Una razón es la comparación por cociente entre dos cifras de diferente o similar

a
naturaleza. R=
b

Sean las siguientes razones:

380 camas
R= = 4 camas / enfermera
95 enfermeras

Es un indicador de la magnitud de trabajo de las enfermeras

R = 10 hab / vivienda

Mg. Beatriz Castañeda S. 32


BIOESTADISTICA

A esta razón se suele denominar índice de hacinamiento, nos indica cuan

densa es la población por vivienda

20 cirujanos
R= = 1 cirujano / 2 int ernistas .
40 int ernistas

Esta razón nos indica la relación entre la cantidad de 2 clases de especialistas

en medicina.

R1 18 alumnos / docente
R= = = 1.8 ⇒ R = 180%
R2 10 alumnos / docente

Esta razón compara dos razones y nos indica que los docentes del grupo 1

tienen 80% más de intensidad de trabajo que los docentes del grupo 2, para la

interpretación a la razón la hemos expresado en unidades porcentuales del

denominador.

MEDICION EPIDEMIOLOGICA

TASA

Una tasa es una comparación por cociente entre un número de eventos

ocurridos en un tiempo y lugar dados y la población que estuvo expuesta al

riesgo de que le ocurrieran dichos eventos en la misma época y en ese mismo

lugar

Tasa = a x base
a+b

La tasa es la expresión numérica del riesgo al que estuvo sometida la

población.

Mg. Beatriz Castañeda S. 33


BIOESTADISTICA

Los datos que integran una tasa ocurrieron en un período anterior al actual y en

cierto modo permiten anticipar, con un determinado valor numérico, la

probabilidad de que exista ese riesgo para la población en períodos

inmediatos, particularmente si las condiciones de dicha población se mantienen

estables.

En Epidemiología, usualmente los eventos están constituidos por casos de

enfermedad o defunciones por diversas afecciones.

Las tasas están constituidas por tres elementos:

1) El numerador del cociente, que consiste en el número de veces que ocurrió

el evento o suceso en estudio.

2) El denominador del cociente que es la población expuesta al riesgo de que

le ocurra el fenómeno.

3) Una constante por la cual se multiplica el resultado del cociente. Debido a

que la división resulta en una cifra inferior a la unidad el resultado suele

multiplicarse por 100, 1.000, 10.000, o 100.000 para una mejor comprensión

y fácil lectura.

Tasas de uso frecuente

N º de defunciones ocurridas en
una región y año dado
Tasa anual bruta de mortalidad = x 1000
Estimación de la población a mitad de año
en la misma región y el mismo año

N º de defunciones niños menores de un año


ocurridas en una región y año dado
Tasa de mortalidad inf antil = x 1000
N º total de nacimientos vivos ocurridos en la
poblaciónen de la misma región y año dado

Mg. Beatriz Castañeda S. 34


BIOESTADISTICA

N º de nacimientos vivos ocurridos


en una región y año dado
Tasa anual bruta de natalidad = x 1000
Estimación de la población a mitad de año
en la misma región y el mismo año

N º de enfermos nuevos de una afección


aparecidos en una región y año dado
Tasa de incidencia = x 1000
Estimación de la población a mitad de año
en la misma región y el mismo año

N º de personas de una región que tienen


la enfermedad en un tiempo especificado
Pr evalencia = x 1000
Estimación de personas en la población
en la misma región y tiempo especificado

Ejemplo 1.10

Cuadro 8. Casos con calcificaciones pulmonares en dos poblaciones


con fábrica de asbestos, según distancia de los domicilios
a la respectiva fábrica

Población A Población B
Distancia Habitantes Habitantes
(Km) Nº % Casos Nº % Casos
0 – 0,9 1 531 13,8 279 5 438 9,1 462
1,0 – 1,9 1 904 17,2 69 4 489 7,5 117
2,0 – 2,9 2 599 23,5 141 10 351 17,4 802
3,0 – 3,9 4 672 42,2 2 36 994 62,0 37
4,0 y más 368 3,3 119 2 384 4,0 665
TOTAL 11 074 100,0 610 59 656 100,0 2083
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación Epidemiológica
de riesgos causados por agentes químicos ambientales. Edición de 1985. México: OPS;
1985.

Con la información del cuadro obtenemos:

610
Tasa de A = x1000 = 55,1 casos de calcificaciones / 1000 habi tan tes
11074

Mg. Beatriz Castañeda S. 35


BIOESTADISTICA

2083
Tasa de B = x1000 = 34,9 casos de calcificaciones / 1000 habi tan tes
59656

Tasa de A 55,1
Al comparar por cociente R = x100 = x100 = 158%
Tasa de B 34,9

Lo que nos indica que los habitantes de la población A tienen un riesgo 58%

mayor al de la población B para tener calcificaciones pulmonares.

AJUSTE DE TASAS

Cuando dos poblaciones tienen diferente estructura de población no es

apropiado comparar las tasas globales ya que está comparación podría no ser

válida debido a éstas diferencias, lo que nos permite, además explicar las

razones de la diferencia y las posibles causas del mayor riesgo en una de las

poblaciones.

El método directo de ajuste de tasas plantea

1º Definir cuál población será sometida a las condiciones de la otra

(Usualmente a la población menor se le aplican las tasas específicas de la

mayor)

2º Con las tasas específicas de la población mayor se calculan los casos

esperados de la población menor y a partir de ellos se obtiene la nueva tasa

global como sigue:

Casos esperados = Población x tasa


Constante

Ejemplo: Casos esperados = 1531 x 85,0 = 130


1000

Mg. Beatriz Castañeda S. 36


BIOESTADISTICA

Cuadro 9. Tasas específicas de calcificaciones pulmonares


por distancias en dos poblaciones

Población A Población B
Distancia Habitantes Habitantes
(Km) Nº Casos Tasa Nº Casos Tasa
0 – 0,9 1 531 279 182,2 5 438 462 85,0
1,0 – 1,9 1 904 69 36,2 4 489 117 26,1
2,0 – 2,9 2 599 141 54,3 10 351 802 77,5
3,0 – 3,9 4 672 2 0,4 36 994 37 1,0
4,0 y más 368 119 323,4 2 384 665 278,9
TOTAL 11 074 610 55,1 59 656 2083 34,9
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación
Epidemiológica de riesgos causados por agentes químicos ambientales. Edición
de 1985. México: OPS; 1985.

Cuadro 10. Casos esperados en población A,


bajo condiciones de la población B

Tasas Casos esperados en A


Distancia Población A especificas bajo condiciones de B
(Km) Habitantes de B

0 – 0,9 1 531 85,0 130


1,0 – 1,9 1 904 26,1 50
2,0 – 2,9 2 599 77,5 201
3,0 – 3,9 4 672 1,0 5
4,0 y más 368 278,9 103
TOTAL 11 074 489
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación
Epidemiológica de riesgos causados por agentes químicos ambientales. Edición
de 1985. México: OPS; 1985.

Tasa ajustada = Suma de casos esperados x constante


Población

Ejemplo: Tasa ajustada = 489 x 1000 = 44,2


11074

Tasas iniciales Tasas corregidas


A B A(ajustada) B
55,1 34,9 44,2 34,9

Mg. Beatriz Castañeda S. 37


BIOESTADISTICA

La comparación inicial (55,1/34,9 = 1,58) nos estaría indicando que la

población A tiene un riesgo 58% mayor al de la población B para tener

calcificaciones pulmonares.

La comparación luego del ajuste (44,2/34,9 = 1,3) nos indica que si la población

A estuviera sometida a condiciones de exposición al asbesto iguales a las que

tiene B, el riesgo de tener calcificaciones pulmonares en A sería 30% mayor

que en la población B, lo cual se explicaría por la distribución de la población

según distancia a la fábrica de asbestos.

Riesgo relativo (RR)

El riesgo relativo de una enfermedad (RR), es la razón de incidencia en

personas expuestas a un factor con respecto a la incidencia en las personas no

expuestas.

El riesgo relativo puede calcularse sólo a partir de un estudio de cohorte o

prueba clínica en donde se identifica primero a un grupo de personas

expuestas a un factor y otro no expuesto, las que se evalúan durante un tiempo

para determinar que personas desarrollan la enfermedad

Estudios de cohorte – Incidencia acumulativa

Personas Expuestas No expuestas Total


Enfermos A1 A0 A
No enfermos N1 –A1 N0 - A0 N-A
Total N1 N0 N

A1 / N 1 R EXP
RR = =
A0 / N 0 R No Exp

Mg. Beatriz Castañeda S. 38


BIOESTADISTICA

Así para interpretar este coeficiente lo comparamos con la unidad, de manera

que

- Si RR = 1, nos indica que el factor de exposición no es un factor de

riesgo para la enfermedad, pues se tiene la misma incidencia o riesgo de

enfermedad para las personas expuestas que para las no expuestas.

- Si RR > 1, nos indica que el factor de exposición es un factor de riesgo

para la enfermedad, ya que para las personas expuestas se tiene mayor

incidencia de la enfermedad que para las personas no expuestas.

- Si RR < 1, nos indica que el factor de exposición es un factor de

protección para la enfermedad, ya que para las personas expuestas se

tiene menor incidencia de la enfermedad que para las no expuestas.

Estimación interválica

Para que podamos concluir, con certeza, que el factor considerado es un factor

de riesgo para la enfermedad, es necesario que el valor obtenido para el RR

sea significativamente mayor que 1, por ello para estar seguros de este

resultado se obtiene la estimación interválica al 95% de confianza para RR;

cuyos límites se calculan con la siguiente expresión:

N 1 − A1 N 0 − A 0
ln( RR ) ± 1.96 +
N1A1 N0 A0
L=e

L: es el límite de la estimación interválica

Mg. Beatriz Castañeda S. 39


BIOESTADISTICA

e = 2.7182 es el número neperiano

ln(RR): es el logaritmo natural del RR

Si el intervalo obtenido tiene límite inferior mayor que 1, entonces concluimos

que el factor considerado es un factor de riesgo para la enfermedad.

Si el intervalo obtenido tiene límite inferior menor que 1, entonces no podemos

concluir que el factor considerado sea un factor de riesgo, porque con 95% de

probabilidad se está estimando que es posible que RR = 1, es decir que haya

la misma incidencia para los expuestos que para los no expuestos.

Ejemplo 1.15

Asuma que de 100 individuos expuestos 20 desarrollaron la enfermedad. En

un grupo de 200 individuos no expuestos, 25 desarrollaron la enfermedad. Así

en un arreglo de 2x2 tenemos:

Individuos Expuestos No expuestos Total


Enfermos 20 25 45
No enfermos 80 175 255
Total 100 200 300

RR = (20/100) / (25/200) = 1.60

Este resultado nos indica que para los expuestos se tiene un 60% más de

incidencia de la enfermedad que para los no expuestos.

100 −20 200 −25


ln( 1.60 ) − 1.96 +
100 ( 20 ) 200 ( 25 )
Li = e = 0.935

Mg. Beatriz Castañeda S. 40


BIOESTADISTICA

100−20 200−25
ln(1.60 ) + 1.96 +
100 ( 20 ) 200 ( 25 )
Ls = e = 2.74

Luego el intervalo de confianza al 95% es: 0.935 – 2.74

Este resultado nos indica que no podemos concluir que el factor de exposición

sea un factor de riesgo, pues la diferencia encontrada no es significativa.

Odds Ratio (OR)

En estudios de caso-control, en los cuales los investigadores determinan el

número de controles, no es apropiado estimar las tasas de incidencia. No

obstante puede realizarse un cálculo de riesgo relativo, llamado Odds Ratio

(OR)

El Odds Ratio es el cociente entre la razón de expuestos a no expuestos en los

casos, y la razón de expuestos y no expuestos en los controles

Personas Expuestos No expuestos Total


Casos a b N1
Controles c d N0

a b axd
OR = =
c d b xc

Esta estimación será correcta si el grupo de control es seleccionado de manera

que refleja la distribución de exposición de la población.

Mg. Beatriz Castañeda S. 41


BIOESTADISTICA

Aquí también, para interpretar este coeficiente debemos compararlo con la

unidad, de manera que

- Si OR = 1, nos indica que el factor de exposición no es un factor de

riesgo para la enfermedad, pues la relación de expuestos a no expuesto

es la misma para casos y controles.

- Si OR > 1, nos indica que el factor de exposición es un factor de riesgo

para la enfermedad, ya que la proporción de casos que han sido

expuestos es mayor que la proporción de controles que han sido

expuestos.

- Si OR < 1, nos indica que el factor de exposición es un factor de

protección para la enfermedad, ya que aquí la porción de expuestos es

mayor en los controles que en los casos.

Estimación interválica

Para que podamos concluir, con certeza, que el factor considerado es un factor

de riesgo para la enfermedad, es necesario que el valor obtenido para el OR

sea significativamente mayor que 1, por ello para estar seguros de este

resultado se obtiene la estimación interválica al 95% de confianza para OR

1 1 1 1
ln( OR ) ± 1.96 + + +
L=e a b c d

donde

L: es el límite de la estimación interválica

e = 2.7182 : es el número neperiano

ln(OR): es el logaritmo natural del OR

Mg. Beatriz Castañeda S. 42


BIOESTADISTICA

Si el intervalo obtenido tiene límite inferior mayor que 1, entonces concluimos

que el factor considerado es un factor de riesgo para la enfermedad.

Si el intervalo obtenido tiene límite inferior menor que 1, entonces no podemos

concluir que el factor considerado sea un factor de riesgo, porque con 95% de

probabilidad se está estimando que es posible que OR = 1, es decir que haya

la misma proporción de expuestos en los casos y controles.

Ejemplo 1.16

En un estudio de casos-control de dieta con frituras y cáncer pancreático

(Norell et al 1986), los siguientes datos fueron obtenidos:

Cuadro 11. Exposición a dieta con frituras para casos y Controles

Dieta con No dieta con


Individuos frituras frituras Total
Casos 53 43 96
Controles 53 85 138
Total 106 128 234
Fuente: Ahlbom, a y Norell, s. Introduction to Modern Epidemiology. Second
Edition. Epidemiology REources Inc. 1990

OR = 53/43 = 1.98
53/85

Este resultado nos indica que hubo 98% más de exposición a la dieta con

frituras para los casos que para los controles, lo que probablemente influyó en

el desarrollo del cáncer.

Estimación interválica:

1 1 1 1
ln( 1.98 ) ± 1.96 + + +
Li = e 53 43 53 85
= 1.167

Mg. Beatriz Castañeda S. 43


BIOESTADISTICA

1 1 1 1
ln( 1.98 ) ± 1.96 + + +
LS = e 53 43 53 85
= 3.359

Luego el intervalo de confianza al 95% es: 1.167 – 3.359

Este resultado nos indica que podemos concluir que la dieta con frituras es un

factor de riesgo para el desarrollo de cáncer pancreático, pues la diferencia

encontrada es significativa.

Práctica domiciliaria 2

1. En un estudio para examinar la relación entre clase socio-económica y tipo

más frecuente de uso de tarjetas de crédito, se entrevistaron a 1500

usuarios de tarjetas de crédito y se obtuvo la información que aparece en la

tabla siguiente:

Clasificación Uso más frecuente de tarjeta de crédito


Socio-económica Entretenimiento Adquisición de bienes Total
Alta 36 39 75
Media alta 114 186 300
Media 174 426 600
Media baja 72 228 300
Baja 41 184 225
Total 437 1063 1500

a) Elabore un gráfico para comparar el uso de tarjeta de crédito según

clasificación socio-económica

b) ¿Quiénes son los mayores usuarios de tarjeta de crédito?

c) Analice y compare el uso de tarjeta de crédito para entretenimiento

Mg. Beatriz Castañeda S. 44


BIOESTADISTICA

2. A continuación aparecen las frecuencias porcentuales de concentración de

plomo en la sangre de los trabajadores de una fábrica de pinturas

examinados en 1989 y otro en 1997.

Plomo en la % de trabajadores
Sangre (µg/dl) 1989 1997
10 – 19 11 38
20 – 29 12 15
30 – 39 14 13
40 – 49 15 15
50 – 59 17 10
60 – 69 13 7
70 – 79 10 1
80 – 90 8 1
Nº trabajadores 280 325

a) ¿En cuál de los dos años tienden los trabajadores a presentar niveles

más bajos de plomo en la sangre?

b) Elabore un gráfico de frecuencias acumuladas para cada año.

c) Obtenga los percentiles 10 y 90 para cada año, compare e interprete.

d) Obtenga las media, coeficiente de variación, y coeficiente de asimetría

para cada año. Interprete.

e) Si plomo en la sangre mayor de 45 µg/dl es indicador de riesgo de

enfermedades respiratorias y daño cerebral, calcule la tasa de

trabajadores en riesgo para cada año. Interprete.

3. En un estudio realizado para evaluar el riesgo de infarto de miocardio (IM)

se sometieron a seguimiento un grupo de médicos, a quienes se les

administró aspirina o placebo, obteniéndose los siguientes resultados:

Médicos IM Sin IM Total


Tomaron Aspirina 139 10898 11037
Tomaron Placebo 239 10795 11034
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, Manual Moderno 1997 (28)

Mg. Beatriz Castañeda S. 45


BIOESTADISTICA

Obtenga el riesgo de infarto de miocardio por tomar aspirina. Interprete.

4. Compare e interprete las siguientes informaciones :

a) Para el año 2000 se obtuvo Tasa de mortalidad por 10000 hbt.


las tasas siguientes: Ciudad General Infantil
A 35 80
B 42 60

b) En un estudio de casos-control Antecedente familiar


para Artritis Reumatoide se Individuo Si No Total
obtuvo la siguiente información. Caso 95 55 150
Calcule el riesgo apropiado e Control 40 180 220
interprete.

c) Para el año 2000 se obtuvo las Tasa por 1000 horas-hombre


tasas siguientes: Empresa Productividad Accidentes
A 500 40
B 350 60

d) En un estudio de casos-control Consume agua potable


para Parasitosis se obtuvo la Individuo Si No Total
siguiente información. Calcule Caso 70 130 200
el riesgo apropiado e Control 180 70 250
interprete.

5. Con el objeto de evaluar el riesgo al que están expuestos los niños que

residen en Callao, con respecto a la contaminación por plomo, se ha

realizado la medición de los niveles de plomo en sangre para una muestra

de niños de la zona, obteniéndose los siguientes resultados:

Plomo Numero
(µg/dl) de niños
〈5.0 – 5.5] 40
〈5.5 – 6.0] 219
〈6.0 – 6.5] 286
〈6.5 – 7.0] 282
〈7.0 – 7.5] 206
〈7.5 – 8.0] 584
〈8.0 – 8.5] 343

Mg. Beatriz Castañeda S. 46


BIOESTADISTICA

〈8.5 – 9.0] 240


Total 2200

a) Elabore el histograma y polígono de frecuencias.

b) Obtenga la media, desviación estándar y coeficiente de variación.

Interprete

c) El riesgo de la población es evaluado: Bajo, si X0.90 ≤ 7.5; Moderado, si:

X0.90 >7.5; pero X0.50< 7.5 y Alto, si X0.50 ≥7.5. Según este criterio, evaluar

el riesgo de los niños del Callao.

d) Calcule el grado de asimetría de la distribución: Interprete.

e) Indique el porcentaje de niños para los que el nivel de plomo en sangre

excede a los 7.5 µg/dl

6. Considere los siguientes datos que comparan la mortalidad por cáncer en

dos países para el año 1986.

País A País B
Edad Población Población
(miles) Muertes (miles) Muertes
0–4 10541 494 18152 666
5 – 14 22431 667 33860 1165
15 – 24 23922 1287 39021 2115
25 – 34 21339 3696 42779 5604
35 – 44 18333 11198 33070 14991
45 – 54 15512 26180 22815 37800
55 – 64 10572 39071 22232 98805
65 – 74 6377 44328 17332 146803
+ 75 2643 31279 11836 161381
Total 131670 158200 241097 469330

a) Obtenga la tasa bruta de mortalidad para cada país, compare.

b) Calcule las tasas específicas de mortalidad por rango de edad. ¿Existe

alguna relación entre las tasas de mortalidad y la edad?

Mg. Beatriz Castañeda S. 47


BIOESTADISTICA

c) Calcule las tasas de mortalidad ajustadas para el país A, sujeto a las

condiciones del país B. Interprete.

7. En una compañía trabajan 200 obreros y 12 empleados. Luego de las

negociaciones con el Sindicato de trabajadores, la compañía otorgará un

incremento de 20% a los obreros y de 15% a los empleados. Los ingresos

mensuales en promedio son de S/. 1200 para los obreros y de S/. 1800 para

los empleados. Calcule usted, la cantidad de dinero que debe disponer la

compañía para hacer efectivo el aumento.

8. Un sociólogo desea comparar los grados de fertilidad de las mujeres de dos

grupos suburbanos de una ciudad. Seleccionó dos muestras al azar de 100

mujeres cuyas edades estaban entre los 50 y 60 años, en ambos grupos y

se registró el número de hijos que había tenido cada mujer.

Nº de hijos Nº mujeres Nº mujeres


Por mujer grupo A grupo B
0 6 0
1 14 3
2 18 8
3 22 18
4 19 30
5 11 19
6 5 15
7 2 5
8 3 2
Total 100 100

a) Complete el gráfico e interprete las tendencias sugeridas en éste.

Mg. Beatriz Castañeda S. 48


BIOESTADISTICA

35
Del grupo A
30
Del grupo B
25
20
15
10
5
0
0 1 2 3 4 5 6 7 8

b) Interprete las siguientes medidas de resumen y compare los grados de

fertilidad medidos por el número de hijos por mujer

Hijos por mujer para dos grupos suburbanos

Medida de
resumen Grupo A Grupo B
Media 3.2 4.3
Desv. Est. 3.4 2.3
Mediana 3 4
Percentil 90 5 6

Bibliografía del capítulo

1. DANIEL, W. BIOESTADÍSTICA, Base para el Análisis de las ciencias de

la Salud”. 4ª Edición, Editorial Limusa S.A. de C.V. Grupo Noriega

Editores. México 2004

2. AHLBOM, A. And NORELL, S. Introduction To MODERN

EPIDEMIOLOGY. Epidemiology Resourses Inc. USA. 1990

Mg. Beatriz Castañeda S. 49


BIOESTADISTICA

3. DAWSON-SAUNDERS, B. And TRAPP, R. Bioestadística Médica. 2ª

Edición. Manual Moderno, S.A. de C.V. México. 2000

4. DAWSON-SAUNDERS, B. And TRAPP, R. Bioestadística Médica. 4ª

Edición .Manual Moderno, S.A. de C.V. México. 2004

5. ROTHMAN, K. Modern Epidemiology. Little, Brown and Company.

Boston/Toronto. 1986

6. MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas

a la Ingeniería. McGRAW-HILL. México. 1996

7. Centro Panamericano de Ingeniería Sanitaria y Ciencias del Ambiente.

Evaluación de Riesgos para la salud por el uso de aguas residuales en

agricultura. Anexo 3: Aspectos Microbiológicos. CEPIS-OPS. Lima, Perú.

1990

8. Centro Panamericano de Ecología Humana y Salud. Evaluación

Epidemiológica de riesgos causados por agentes químicos ambientales.

Edición de 1985. México: OPS; 1985

9. PAGANO, M y GAUVREAU, K. Fundamentos de Bioestadística.

Thomson Learning. México, 2000.

Mg. Beatriz Castañeda S. 50


BIOESTADISTICA

CAPITULO 2. PROBABILIDAD
„ Es la medida de la posibilidad de que ocurra un hecho o evento.

Probabilidad

Subjetiva Objetiva

Teórica o Frecuencial o
a priori a posteriori

Gráfico 8. Asignación de probabilidades

Probabilidad Subjetiva

Es la medida que asignamos basados en nuestro criterio personal, experiencia,

“corazonadas” o deseos. Esta forma de medición no es factible de ser

trasmitida a otras personas.

Probabilidad Objetiva

Es la medida que asignamos basados en datos concretos y en la teoría

matemática. Esta forma de medición se puede trasmitir a otras personas.

Definiciones

- Experimento aleatorio:

Todo procedimiento o actividad que genera dos o más posibles resultados, por

ejemplo: Lanzar una moneda, observar la calidad de 3 productos

Mg. Beatriz Castañeda S. 51


BIOESTADISTICA

- Espacio muestral: Ω, S

Conjunto formado por todos los resultados posibles de un experimento

aleatorio, por ejemplo dados l os siguientes experimentos:

- Al lanzar una moneda Ω = {c, s}

- Al observar la calidad de 3 productos

Ω = {BBB,BBD,BDB,BDD,DBB,DBD,DDB,DDD }

Evento elemental: w

Resultado individual del experimento aleatorio, por ejemplo w = BBB

Evento o Suceso:

Un subconjunto del espacio muestral, ejem: A = {BBD, BDB, DBB }

Álgebra de Eventos. Los eventos se enmarcan en la teoría de Conjuntos por

lo cual al trabajar con los eventos son validas todas las propiedades y

operaciones definidas para los conjuntos,

Nomenclatura. Como los eventos tienen que ver con la ocurrencia de ciertos

resultados algunos tienen una denominación particular que difiere de la

nomenclatura general de los conjuntos, de esta manera:

„ Si A = φ, A es un evento imposible

„ Si A = Ω, A es un evento seguro

„ A∩B = AB, se denomina evento intersección, simultáneo, conjunto o

producto de A y B, decimos que ocurren A y B

„ Si AB = φ, los eventos son excluyentes, disjuntos o incompatibles

Mg. Beatriz Castañeda S. 52


BIOESTADISTICA

„ A ∪ B, es el evento reunión, decimos ocurre A o B

„ Ac = A´= A , es el evento complemento de A, A∪A´= Ω

2.1. Función Probabilidad

La función probabilidad asigna a cada evento A definido en el espacio muestral

un real p llamado probabilidad de A.

A ⊂ Ω → P ( A) = p
Donde p debe cumplir los tres axiomas siguientes:

1. P(A) ≥ 0 , para todo evento A definido en Ω

2. P(Ω) = 1

3. Dados A1, A2, …., An, …. eventos definidos en Ω, tales que son

mutuamente excluyentes, es decir: Ai Aj = φ , para todo par i≠j,

entonces.

P ( U Ai ) = ∑ P ( Ai )
i =1

Propiedades

„ P(φ) = 0

„ P(Ac) = 1 – P(A)

„ P(AUB) = P(A) + P(B) - P(AB)

„ 0 ≤ P(A) ≤ 1

Mg. Beatriz Castañeda S. 53


BIOESTADISTICA

2.2. Asignación de Probabilidad

- Probabilidad Frecuencial n( A)
P ( A) =
n

Dadas n realizaciones de un experimento aleatorio, donde A es un resultado

obtenido, entonces la probabilidad de A es la frecuencia relativa

Ejemplo 2.1

La tabla presenta las reacciones de 400 ciudadanos con respecto a un nuevo

plan de impuestos de acuerdo con su filiación partidaria

Afiliación Reacción
Total
partidaria A favor Neutral Se opone
A 120 20 20 160
B 50 30 60 140
Otra 50 10 40 100
Total 220 60 120 400

Sean los eventos:

F: El ciudadano está a favor del nuevo plan de impuestos

P(F) = 220/400 = 0.55

AF: el ciudadano es de Afiliación A y está a favor

P(AF) = 120/400 = 0.30

Probabilidad Teórica

Se basa en el razonamiento matemático, así dado un experimento con n(Ω)

resultados igualmente posibles y un evento A con n(A) resultados favorables

igualmente posibles, entonces: n( A)


P ( A) =
n(Ω )

Mg. Beatriz Castañeda S. 54


BIOESTADISTICA

Ejemplo 2.2: Lanzamiento de un dado

P(puntaje par) = 3 = 0.5


6

Ejemplo 2.3: Extraer una carta de un juego de naipes

P(un as) = 4 =0.077


52

Ejemplo 2.4: Al extraer dos objetos de una caja que contiene 8A y 6B

Sea el evento C: Se obtiene un A y un B

Los posibles resultados del experimento los podemos ilustrar con el siguiente

diagrama denominado diagrama de árbol

8A 6B

8
6
A B

7 6 8 5
A B A B

Gráfico 9. Diagrama de árbol

C = {AB , BA} n(C ) = n( AB ) + n( BA) = 8 x 6 + 6 x 8 = 96

n(Ω ) = 14 x13 = 182

96
Luego P (C ) = = 0.527
182

Mg. Beatriz Castañeda S. 55


BIOESTADISTICA

2.3. Métodos de Enumeración y Conteo


1. Principio de multiplicación

Si un proceso tiene dos etapas o su realización se puede conceptuar en 2

etapas, de las que la primera se puede realizar de m maneras y la segunda de

n maneras, entonces el proceso (1ª y 2ª etapa) puede realizarse de mxn

maneras. Se ilustra con el diagrama de árbol.

Ejemplo 2.5 Sea el experimento de lanzar 2 monedas.

C S

C S C S

n(Ω) = 2x2 = 4 Ω = {cc, cs, sc, ss}

Ejemplo 2.6

Trasladarse de una ciudad A a otra ciudad C pasando por B, sabiendo que de

A a B hay 3 líneas de vehículos y de B a C hay 5 líneas.

n(Ω) = 3x5 = 15

Ejemplo 2.7

Extraer dos artículos de un lote en el que hay 5A y 10B

n(Ω) = 15 x 14

Mg. Beatriz Castañeda S. 56


BIOESTADISTICA

Este principio se puede generalizar a k etapas.

2. Principio de Adición

Si un proceso A puede realizarse de nA maneras y un proceso B puede

realizarse de nB maneras, entonces si A y B son procesos que no pueden

realizarse u ocurrir simultáneamente, el número de maneras en que se puede

realizar el proceso A o B será nA + nB

Ejemplo 2.8

Sea el experimento de extraer un artículo de un lote que contiene 4b, 2n y 3 A.

Sean los eventos:

A: El artículo extraído es b

B: el artículo extraído es n

Entonces n(A ó B) = 4 + 2 = 6

Ejemplo 2.9

Sea el experimento que consiste en extraer 2 objetos de un conjunto que

contiene 8 A, 5B y 4C. Sean los sucesos:

A1 : El primer objeto extraído es A

A2 : El segundo objeto extraído es A

A1 ∪ A2 = {AA, AB, AC, BA, CA }

n(A1 ∪ A2) = n(AA) +n(AB) + n(AC) + n(BA) + n(CA)


= 8 x 7 + 8 x 5 + 8 x 4 + 5 x 8 + 4x 8 = 200

Mg. Beatriz Castañeda S. 57


BIOESTADISTICA

3. Permutaciones u ordenamientos

Si se tiene un conjunto de n elementos, entonces el número de maneras

diferentes en que podemos presentarlos ordenadamente en línea será N = n!

1 2 3 . . . n

Se elige de 1 en 1 y se coloca en cada lugar

1º 2º n-1º nº

n n-1 . . . 2 1

N = n x n-1 x . . . x 2 x 1 = n!

el experimento sería similar al de extraer de uno en uno los elementos y

colocarlos en algún orden establecido.

Ejemplo 2.10

Un inspector visita 6 máquinas diferentes durante el día. A fin de impedir a los

operadores que sepan cuando inspeccionará, varía el orden de las visitas. ¿de

cuántas maneras puede realizar las visitas

El número de maneras será: 6! = 720

4. Variaciones o grupos ordenados

Cuando se tienen n elementos con los cuales queremos formar grupos

ordenados de r elementos diferentes cada vez, entonces el número de

maneras diferentes de hacerlo es:

Mg. Beatriz Castañeda S. 58


BIOESTADISTICA

n!
N = n x n-1 x . . . x n – (n-1) =
( n − r )!

Ejemplo 2.11

Placas con 3 números y 2 letras deben construirse, si no se permite la

repetición de dígitos y letras, ¿cuántas placas se construyen con los dígitos 0,

1, 2, …. , 9 y las letras A, B, …., E

El número de placas será: N = (10 x 9 x 8) x (5 x 4)

4. Combinaciones

Si de un conjunto con n elementos deseamos formar un grupo de r elementos

sin interesar el orden entre ellos, el número de maneras de formar el grupo es:

 n n!
N =   =
 r  r !( n − r )!

Ejemplo 2.12

Un mecanismo puede fallar en 15 partes diferentes, si falla en 3 partes, ¿de

cuántas maneras puede suceder?

 15  15!
N =   = = 455
 3  3! 12!

Ejemplo 2.13

De un grupo de 7 personas se elige 3 para formar una comisión, luego el

número de maneras diferentes de formar la comisión será:

 7
N =   = 35
 3

Mg. Beatriz Castañeda S. 59


BIOESTADISTICA

Ejemplo 2.14

Un examen consiste de 10 preguntas cuyas respuestas son verdadero (V) o

falso (F) ¿De cuántas maneras se puede contestar el examen marcando 3V y

7F

Este procedimiento lo podríamos comparar con la acción de escoger 3

preguntas para responder verdadero y a las 7 restantes asignarle falso, luego:

 10 
N =   = 120
3

5. Particiones

El número combinatorio puede interpretarse de 2 maneras, así:

1) Indica el número de maneras en que se elige r elementos de un conjunto

que tiene n elementos.

2) Indica el número de maneras en que repartimos un conjunto de n

elementos en dos grupos uno con r y el otro con (n-r) elementos.

Luego si un conjunto tiene n elementos y lo queremos particionar en k grupos

con n1, n2, …, nk elementos cada uno tal que

n1 + n2 + … + nk = n

el número de maneras de hacer la partición es:

n!
N =
n1! n2 ! . . . nk !

Ejemplo 2.15

¿De cuántas maneras se puede distribuir un conjunto de 9 personas en 3

comisiones, la primera conformada por 3, la segunda por 4 y la tercera por 2

personas, respectivamente?

Mg. Beatriz Castañeda S. 60


BIOESTADISTICA

9!
El número de maneras será: N = = 1260
3! 4! 2!

6. Permutaciones con repetición

Si se tiene n elementos entre los que n1, n2, …, nk elementos son similares

entre si y n1 + n2 + … + nk = n, entonces el número de maneras de

ordenarlos en línea es:

n!
N =
n1! n2 ! . . . nk !

Ejemplo 2.16

Sean las letras a, a, b, b, b si las deseamos presentar en línea en un orden

diferente cada vez, el número de maneras será:

5!
N = = 10
2! 3!

Si estas letras se hubieran distinguido con subíndices, entonces el número de

maneras de ordenarlas en línea sería:

5! = 120

7. Ordenamiento en circulo

El número de maneras de ordenar en circulo n elementos es N = (n-1)!

Ejemplo 2.17

Sean las letras a, b, c , entonces el número de maneras de ordenarlas en línea

sería 3! = 6, pero en circulo es solo 2! = 2 porque:

Mg. Beatriz Castañeda S. 61


BIOESTADISTICA

abc, cab, bca se obtienen de rotar el último al primer lugar y al presentarlas

en círculo se obtiene una misma disposición como se puede apreciar en el

siguiente diagrama.

a c b

a
b b a c
c

abc cab bca

lo mismo ocurre para acb,bac,cba

a b c

a
c c a b
b

acb bac cba

Gráfico 10. Ordenamiento en círculo

2.4. PROBABILIDAD CONDICIONAL

A un evento A que ocurre condicionado a la ocurrencia de otro evento B, se

denomina evento condicional de A dado B (A/B) y su probabilidad se calcula

como:

P ( AB ) n( AB ) , si P(B) > 0
P( A / B) = =
P( B) n( B )

Mg. Beatriz Castañeda S. 62


BIOESTADISTICA

Ejemplo 2.18

Con los datos del ejemplo 2.1, calculamos la probabilidad de que un ciudadano

este a favor del nuevo plan de impuestos dado que es de afiliación partidaria A

Afiliación Reacción
Total
partidaria A favor Neutral Se opone
A 120 20 20 160
B 50 30 60 140
Otra 50 10 40 100
Total 220 60 120 400

A: El ciudadano es de afiliación A

P(A) = 160/400 = 0.40

AF: el ciudadano es de Afiliación A y está a favor

P(AF) = 120/400 = 0.30

P ( AF ) 0.30 120
Entonces P ( F / A) = = = = 0.75
P ( A) 0.40 160

Consecuencias de la Probabilidad Condicional


1. P(AB) = P(B) P(A/B) = P(A) P(B/A)

El cálculo dependerá de la información disponible (o del orden en que

ocurren los hechos)

P(A) P(Ac)
P(AB)=P(A)P(B/A) A Ac

P(B/A)

B Bc B Bc
Mg. Beatriz Castañeda S. 63
BIOESTADISTICA

Lo que se resume en la siguiente tabla

Cuadro 12. Probabilidad marginal y conjunta

Prob.
A Ac
marginal
c
B P(AB) P(AB ) P(B)
BC c c c
P(PAB ) P(A B ) P(Bc)
Prob.
P(A) P(Ac)
marginal
Elaboración propia

2. P(ABC) = P(AB) P(C/AB) = P(A) P(B/A) P(C/AB)

Como los eventos son conjuntos y la intersección de conjuntos tiene la

propiedad asociativa y conmutativa, entonces el orden en que podemos escribir

ABC puede variar y así obtener otras formas de evaluación de a probabilidad

conjunta del evento ABC como:

P(ABC) = P(ACB) =P(A) P(C/A) P(B/AC)

3. Independencia de eventos

Los sucesos A y B se consideran independientes cuando la ocurrencia de uno

no influye sobre la probabilidad de ocurrencia del otro; es decir, la probabilidad

de que ocurra A se mantiene invariante ante su ocurrencia condicionada a la de

B y viceversa.

Dos eventos A y B son independientes si y sólo si

P(A) = P(A/B)
P(B) = P(B/A)
P(AB) = P(A) P(B)

Mg. Beatriz Castañeda S. 64


BIOESTADISTICA

Ejemplo 2.19
Calculamos la probabilidad de obtener 2 caras al lanzar dos veces una

moneda

P(cc) = P(c) P(c) = (1/2)(1/2) = ¼

Probabilidad Total

Un evento de probabilidad total es un evento A que ocurre asociado a la

ocurrencia de n eventos Bi, tales que son mutuamente excluyentes y

colectivamente exhaustivos

BiBj = φ ∀ i ≠ j y ∪ Bi = Ω

B1 B2 Bn
...
A A A A ... A A

B1 B2 … … Bn
A AB1 AB2 … … ABn
AC AcB1 AcB2 … … AcBn

P( A)= ∑i
P ( AB i ) = ∑
i
P (Bi )P ( A / Bi )

Probabilidad Condicional de Bayes

Si habiendo ocurrido un evento A nos preguntamos por la ocurrencia de un

evento Bj que ocurre en etapas previas a la ocurrencia de A, entonces a la

Mg. Beatriz Castañeda S. 65


BIOESTADISTICA

probabilidad de Bj condicionada al resultado A se denomina evento condicional

de Bayes

P ( AB j )
P (B j / A)=
P(A)

Ejemplo 2.20

Para las fiestas navideñas una tienda de regalos contrata a 3 empaquetadores.

Carmen empaqueta el 30% de los regalos vendidos y olvida quitar la etiqueta

con el precio en 1 de cada 20, Juan empaqueta el 40% de los regalos que

empaqueta Sandra y olvida quitar la etiqueta con el precio en 1 de cada 10; y

Sandra olvida quitar la etiqueta con el precio en 1 de cada 25.

a) ¿Cuál es la probabilidad de que un cliente reciba un regalo con la etiqueta

del precio?

b) Si un cliente se quejó de que no fue quitada la etiqueta del regaló que

compró, ¿cuál es la probabilidad de que el error haya sido cometido por Juan?.

Luego el proceso de empaquetar los regalos lo ilustramos con el siguiente


diagrama

Regalos

0.30

Carmen Juan Sandra

0.05
0.10 0.04
E
E E E E E

Donde E: El regalo se quedó con la etiqueta del precio

Mg. Beatriz Castañeda S. 66


BIOESTADISTICA

Como Juan y Sandra empaquetan el 70% de los regalos, entonces J + S =0.7

Además, Juan empaqueta el 40% de los regalos que empaqueta Sandra, es

decir,

0.4S + S = 0.7 , entonces S = 0.5

Luego Sandra empaqueta el 50% y Juan el 20% de los regalos.

Resumiendo la información en una tabla obtenemos:

Regalos
Carmen Juan Sandra Total
empaquetados
Con etiqueta 0,015 0,02 0,02 0,055
Sin la etiqueta 0,285 0,018 0,48 0,945
Total 0,30 0.20 0.50 1,00

Sean los eventos

A: El cliente recibe un regalo con la etiqueta del precio

entonces P(A) = 0.055

J: El regalo fue empaquetado por Juan

P ( JA) 0,02
Por consiguiente P ( J / A) = = = 0,364
P ( A) 0,055

2.5. EVALUACIÓN DE PROCEDIMIENTOS DE DETECCIÓN

La bondad de un método de detección es estimada sobre la base de una

muestra de individuos los cuales han sido sometidos a evaluación por un

procedimiento aceptado, diferenciándolos como “sanos” y “enfermos”. Estos

individuos al ser sometidos a la nueva prueba diagnóstica pueden resultar

Mg. Beatriz Castañeda S. 67


BIOESTADISTICA

positivos o negativos a la prueba; resultados que podemos agrupar en una

tabla de 2 x 2

Prueba Prueba diagnóstica


aceptada Positivo (+) Negativo (-) TOTAL
Enfermos E + (PV) E- (NF) E
Sanos S+ (PF) S- (NV) S

Se define: Sensibilidad = E + x 100


E

Es la capacidad del método para detectar a los enfermos, mide el porcentaje de

enfermos que el método es capaz de detectar

Especificidad = S - x 100
S

Es la capacidad del método para identificar a los que no tienen la enfermedad

Mide el porcentaje de sanos que el método es capaz de identificar, es decir,

sanos que dan negativo a la prueba

Valor predictivo

Sobre la base de las estimaciones de la bondad de la prueba para

identificación de sanos y enfermos, y teniendo en cuenta la prevalencia de la

enfermedad en determinada población se calcula el valor predictivo positivo y

negativo

Prueba diagnóstica
Población Positivo (+) Negativo (-) TOTAL
Enfermos P(E + ) P(E-) P(E)
Sanos P(S+) P(S-) P(S)
TOTAL P(+) P(-)

Valor predictivo Positivo (VP+) = P(E+) X 100


P(+)

Mg. Beatriz Castañeda S. 68


BIOESTADISTICA

Mide la probabilidad de que una persona que resultó positiva a la prueba,

realmente tenga la enfermedad.

Valor predictivo Negativo (VP-) = P(S -) X 100


P(-)

Mide la probabilidad de que una persona que resultó negativa a la prueba,

realmente esté sana.

Ejemplo 2.21

Se estima que el 1% de la gente de cierto vecindario tiene tuberculosis; una

placa de rayos X es usada con la gente para prevenirla de la enfermedad. De

experiencias anteriores se sabe que los rayos X tienen una sensibilidad del

99% y una especificidad del 90%.

a) Si la prueba a una persona resulta positiva, ¿cuál es la probabilidad de

que no tenga tuberculosis?

b) Si la prueba resulta negativa, ¿cuál es la probabilidad de que esté

enferma?

Resumimos la información en la tabla resumen de probabilidades

Prueba diagnóstica
Población Positivo (+) Negativo (-) TOTAL
Enfermos 0.0099 0.0001 0.01
Sanos 0.099 0.891 0.99
TOTAL 0.1089 0.8911

Luego:

Valor predictivo Positivo (VP+) = P(E+) X 100 = 0.0099 x 100 = 9.09%


P(+) 0.1089

Mg. Beatriz Castañeda S. 69


BIOESTADISTICA

Valor predictivo Negativo (VP-) = P(S-) X 100 = 0.891 x 100 = 99.99%


P(-) 0.8911

Ejercicios

1. Se examina de cáncer a los residentes de una comunidad y los

resultados se clasifican de positivos si se sospecha que es maligno, y

como negativos si no hay indicios de que sea maligno. Si la sensibilidad

del método diagnóstico es del 98% y la especificidad del 85% y si el 5%

de la comunidad tiene cáncer, ¿cuál es la probabilidad de que una

persona no tenga cáncer si su examen resulta positivo?

2. Se sabe que el análisis de glucosa en sangre en ayuno tiene una

sensibilidad y especificidad conocidas de 80% y 96%, respectivamente.

Según los reportes médicos el 90% de las personas que dan positivo al

análisis de glucosa en orina tienen diabetes.

A una persona con resultado positivo para glucosa en orina, se le ha

hecho una prueba de glucosa sanguínea en ayuno, si el resultado fue

positivo ¿cuál es la probabilidad de que tenga diabetes?.

Práctica domiciliaria 3

1. Tres personas solicitan un trabajo, los candidatos A y B tienen la misma

oportunidad de ganar, pero el candidato C tiene el doble de oportunidades

que cualquiera de los otros.

a) ¿Cuál es la probabilidad de que gane C?

b) ¿Cuál es la probabilidad de que A no gane?

Mg. Beatriz Castañeda S. 70


BIOESTADISTICA

2. En la Facultad de Psicología se promueve la titulación de todos los

pasantes, se inscriben 5 000 alumnos de los cuales 720 son irregulares, por

adeudar 1 materia, 397 no han realizado servicio social, 534 no han

acreditado el idioma, 180 , además de no haber realizado su servicio social,

adeudan una materia y 70 que también no han realizado el servicio y no han

acreditado el idioma. ¿Cuál es la probabilidad de no alcanzar la titulación si

se tiene alguno de los problemas anteriores?

3. Seis cartas se extraen de una baraja ordinaria.

a) ¿Cuál es la probabilidad de que consten de una pareja (dos ases, o dos

cincos, por ejemplo) y 4 cartas que no formen parejas?

b) ¿y de que haya dos parejas y dos que no formen pareja?

4. En una fabrica se tienen dos máquinas que producen un determinado

artículo. La máquina 1 produce el 33,3% de los artículos. El 10% de los

artículos producidos por la máquina 1 son defectuosos, en tanto que la

máquina 2 produce 8% de defectuosos. Si de la producción diaria (120

artículos) se elige 2 artículos para ser inspeccionadas obtenga la

probabilidad de:

a) Que ambos artículos sean defectuosos

b) Dado que ambos resultaron defectuosos, uno haya sido producido por la

máquina 1 y el otro por la máquina 2.

5. Se sabe que una caja se ha llenado lanzando un dado y colocando en ella

blancas en número igual al obtenido en el lanzamiento del dado. A

continuación se ha añadido bolas negras en número determinado por una

segunda tirada del dado. Se sabe también que el número de bolas en la

Mg. Beatriz Castañeda S. 71


BIOESTADISTICA

caja es 8. ¿cuál es la probabilidad de que la caja contenga exactamente 5

bolas blancas?

6. Una institución ha desarrollado una prueba para la detección de hepatitis, e

indica que tiene 98% de sensibilidad y 95% de especificidad.

a) Una persona ha sido evaluada con la prueba y dio resultado positivo. Si

la prevalencia de la población es del 5% ¿Cuál es el valor predictivo?

7. Un laboratorio desea utilizar esta prueba de detección y para evaluarla

aplica la prueba a 80 personas previamente diagnosticadas con hepatitis y a

120 personas sanas, obteniendo los siguientes resultados:

Prueba Diagnóstica
Persona + - Total
Con hepatitis 76 4 80
Sana 10 110 120

Con esta información estime la sensibilidad y especificidad de la prueba

y calcule nuevamente el valor predictivo para un resultado positivo.

c) Si el laboratorio realiza 3 mediciones para una persona resultando ++ - ,

¿cuál es la probabilidad de que esta persona no tenga hepatitis?.

8. Se alinean al azar 6 fichas azules y 2 verdes

a) ¿Cuál es la probabilidad de que las 2 fichas verde queden juntas?

b) ¿Cuál es la probabilidad de que las 2 fichas verdes ocupen las

posiciones extremas?

9. Un número binario está compuesto sólo de los dígitos 0 y 1. (Por ejemplo

1011, 1100, etc). Eso números tienen un papel importante en el uso de los

computadores electrónicos. Supóngase que un número binario está formado

por 6 dígitos. Supóngase que la probabilidad de que aparezca un dígito

Mg. Beatriz Castañeda S. 72


BIOESTADISTICA

incorrecto es 0.05 y que los errores en dígitos diferentes son independientes

uno de otro. ¿cuál es la probabilidad de formar un número incorrecto?

10. En el departamento de fotocopiado de una universidad existen 3 copiadoras

que fueron adquiridas, al mismo tiempo, con las mismas características

técnicas para una gran demanda de trabajo. Este tipo de copiadora está

fuera de servicio un 10% del tiempo de uso (por mantenimiento y

reparación). Suponga la posibilidad de que ninguna de las fotocopiadoras,

cuando están fuera de servicio, dependa de la condición actual de las otras

dos. El funcionamiento de cada una es independiente entre sí. Calcule la

probabilidad de que:

a) Las tres fotocopiadoras estén fuera de servicio

b) Una de las tres esté fuera de servicio.

11. La irregularidad del corte de productos de papel aumenta a medida que las

hojas de la cuchilla se desgastan. Solo el 1% de productos cortados con

cuchillas nuevas tienen cortes irregulares, el 3% de los cortados con

cuchillas de filo promedio exhiben irregularidades y el 5% de los cortados

con cuchillas desgastadas presentan irregularidades. Si el 25% de las

cuchillas son nuevas, y del resto, el 80% tienen filo promedio:

a) ¿Cuál es la proporción de productos que tendrían cortes irregulares?

b) ¿Cuál es la probabilidad de que un producto que presente

irregularidades haya sido cortado por una cuchilla de filo promedio?

12. Un estudiante se prepara para rendir un examen estudiando una lista de 10

problemas. El puede resolver con certeza 6 de estos problemas. Para el

examen el profesor selecciona al azar 5 problemas de la lista. ¿cuál es la

Mg. Beatriz Castañeda S. 73


BIOESTADISTICA

probabilidad de que el estudiante apruebe el examen si para ello debe

resolver al menos 3 de los problemas?

13. En un estudio reciente, de 1800 compañías se encontró que 49% de ellas

realizan estudios serios sobre la eficiencia de su publicidad, 61% llevan a

cabo pronósticos de ventas a corto plazo, 38% de ellas hacen ambas cosas

y 64% de las compañías realizan investigaciones sobre sus competidores.

Si el realizar investigaciones sobre sus competidores es independiente de la

realización de los otros estudios, estime:

a) La probabilidad de que una compañía realice estudios sobre la eficiencia

de su publicidad, haga investigaciones sobre los competidores pero no

lleve a cabo pronósticos de sus ventas a corto plazo.

b) La probabilidad de que lleve a cabo los tres tipos de actividad.

14. Una urna contiene 5 bolas negras y 4 blancas, la otra urna contiene 4

negras y 5 blancas. Se traslada una bola de la primera a la segunda urna y

a continuación se extrae dos bolas de la segunda urna.

a) ¿cuál es la probabilidad de que sean blancas?

b) ¿cuál es la probabilidad de que sean blancas si se trasladan 2 bolas?

15. Considere el siguiente circuito

0.01 0.01 0.1

0.1 0.1

El circuito trabaja, si y sólo si, existe una trayectoria de dispositivos en

funcionamiento de izquierda a derecha.

Mg. Beatriz Castañeda S. 74


BIOESTADISTICA

Suponga que los dispositivos fallan de manera independiente. En la figura

se indica la probabilidad de falla de cada dispositivo. Calcule la

probabilidad de que el circuito funcione.

16. Para la detección de osteoporosis se cuenta con una prueba diagnóstica

que tiene 90% de sensibilidad y 95% de especificidad.

a) En cierta comunidad, cuya población femenina mayor de 50 años tiene

25% de prevalencia de osteoporosis. Las mujeres son sometidas a 2

evaluaciones consecutivas con la prueba diagnóstica. Obtenga el valor

predictivo para el resultado ++ y el valor predictivo para el resultado - -.

b) Si una persona obtuvo un resultado + y un -, entonces es sometida a una

tercera evaluación ¿Cuál es el valor predictivo si el tercer resultado es

negativo?

17. Por experiencias anteriores, la compañía ABC sabe que de un determinado

número de lotes adquiridos, el 60% de ellos no tiene defectuosos, el 25%

tiene sólo un defectuoso, el 10% tiene 2 defectuosos y el 5% tiene 3

defectuosos. Dicha compañía realiza un plan de muestreo de aceptación de

lotes, que consiste en extraer una muestra de 3 artículos de cada lote que

desea inspeccionar, se acepta dicho lote si encuentra a lo más un

defectuoso en la muestra. Cada lote tiene 50 artículos ¿cuál es la

probabilidad de aceptar un lote?

18. Un dispositivo de almacenamiento óptico utiliza un procedimiento de

recuperación de error que requiere la lectura inmediata de cualquier dato

escrito en el dispositivo. Si la lectura no tiene éxito después de tres

operaciones de escritura, se elimina dicho sector del disco ya que es

Mg. Beatriz Castañeda S. 75


BIOESTADISTICA

inaceptable para el almacenamiento de datos. En la parte aceptable del

disco, la probabilidad de una lectura exitosa es 0.98. Suponga que las

lecturas son independientes. ¿Cuál es la probabilidad de eliminar una parte

aceptable del disco y marcarla como inaceptable para el almacenamiento

de datos?

19. Se saca 6 cartas sin restitución de una baraja. Calcule la probabilidad de

que:

a) Las primeras 3 cartas sean reinas y las 3 últimas sean reyes.

b) Sólo las tres primeras cartas sean reinas.

c) Las tres primeras cartas sean reinas.

20. Suponga que se ha cargado un dado de manera que la probabilidad de que

ocurra un número determinado es proporcional al mismo. Se lanza dos

veces el dado; calcule la probabilidad de la suma de puntos sea 5.

21. Un procedimiento para detectar el paludismo tiene 98% de sensibilidad y el

10% de probabilidad de reportar paludismo cuando la persona no lo tiene. El

12% de la comunidad tiene paludismo.

a) ¿Cuál es la probabilidad de que la persona no tenga paludismo si su

examen resulta positivo?

b) ¿Cuál es la especificidad de la prueba?

22. Los jugadores A, B y C participan en el siguiente juego: De una caja que

contiene 10 bolas de las cuales 6 son negras y el resto rojas, cada uno

extrae una bola empezando por A, seguido por B, seguido por C, y así

sucesivamente, gana el primero que obtiene una bola roja. Hallar la

probabilidad de ganar para cada jugador si:

Mg. Beatriz Castañeda S. 76


BIOESTADISTICA

a) Las extracciones se hacen sin reposición

b) Las extracciones se hacen con reposición.

23. En un partido de voleibol 2 equipos juegan hasta que uno de ellos haya

ganado 3 sets. Se supone que el equipo A tiene 0.70 de probabilidad de

ganar el primer juego, 0.80 de ganar cualquier juego posterior si gano el

anterior y 0.40 si perdió el anterior. ¿Calcular la probabilidad de que el

partido termine en 4 sets.

24. Los tiradores A, B y C disparan hacia un blanco y las probabilidades de que

cada uno acierte son 0.90, 0.70 y 0.80 respectivamente. ¿Cuál es la

probabilidad de que:

a) Dos de ellos acierten

b) Acierte A, si acertaron al menos 2 de los tiradores

25. Arturo llega tarde a su trabajo el 25% de las veces. Suele olvidar su

portafolio el 20% de las veces. Suponiendo que estos dos sucesos son

independientes, encuentre las siguientes probabilidades:

a) Que Arturo llegue tarde dos veces seguidas.

b) Que Arturo llegue tarde y sin portafolio

c) Que Arturo llegue a tiempo y con portafolio

d) Que habiendo llegado tarde no traiga portafolio

26. Se examina de cáncer a los residentes de una comunidad para lo cual

pasan por el siguiente proceso de despistaje: se pasa por una primera

prueba que tiene 98% de sensibilidad y 85% de especificidad, si el individuo

resulta positivo a esta primera prueba pasa por una segunda prueba que

Mg. Beatriz Castañeda S. 77


BIOESTADISTICA

tiene 95% de exactitud tanto para los que tienen como para los que no

tienen cáncer. Si el 2% de la población tiene cáncer, ¿Cuál es el valor

predictivo positivo y cuál el valor predictivo negativo? Interprete.

27. Una empresa de servicios que elabora proyectos de Plan Maestro para

infraestructura de agua y desagüe de pueblos y ciudades, garantiza que el

90% de los proyectos que prepara son aceptados por las entidades que dan

la buena pro. Suponga que una institución le encarga 5 proyectos.

a) ¿Cuál es la probabilidad de que ninguno de los proyectos sea

aprobado?

b) ¿Cuál es la probabilidad de que al menos dos de los proyectos sean

aprobados?

28. Siete equipos participan en un campeonato. Se otorgará trofeo a los

equipos que ocupen las 3 primeras posiciones. Una empresa de loterías

promueve un juego para los que acierte con los pronósticos y premiará a los

que hayan acertado con al menos 1 de las posiciones ganadoras. Si un

pronóstico recibiera premio ¿cuál es la probabilidad de que hubiere acertado

con los equipos en sólo dos de las posiciones?

29. Sean P(A) = 0.30, P(B) = 0.78 y P(AB) = 0.16, encontrar P(AUB) y P(A’B’)

30. En el supuesto de que A, B y C son sucesos mutuamente excluyentes,

explicar porque no son admisibles ninguna de las siguientes asignaciones

de probabilidades:

i. P(A) = 0.4, P(B) = 0.4, P(AUC) = 0.2

ii. P(A) = 0.7, P(B) = 0.1, P(BC) = 0.3

Mg. Beatriz Castañeda S. 78


BIOESTADISTICA

Bibliografía del capítulo

1. WAYNE, D. Bioestadística base para el análisis de las ciencias de la salud.

Limusa Wiley. Méxio 2004.

2. ELORZA H. Estadística para ciencias del comportamiento. Harla S.A.,

México. 1987

3. MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas a la

Ingeniería. McGRAW-HILL. México. 1996

4. MEYER, P. L. Probabilidad y Aplicaciones Estadísticas. Addison-Wesley

Iberoamericana S.A., Buenos Aires – Argentina. 1992

5. KAZMIER, L.J. Estadística aplicada a la Administración y Economía.

McGRAW-HILL, México. 1996

6. PAGANO, M y GAUVREAU, K. Fundamentos de Bioestadística. Thomson

Learning. México, 2000.

7. MASON, R, LIND, D y MARCHAL, W. Estadística para Administración y

Economía. 10ª Edición, Alfaomega. Mexico 2003.

Mg. Beatriz Castañeda S. 79


BIOESTADISTICA

CAPITULO 3. VARIABLES ALEATORIAS Y


DISTRIBUCIONES DE PROBABILIDAD

3.1. Variable Aleatoria

Una variable aleatoria (v.a.) es una función X cuyo dominio es el espacio

muestral (Ω), de un experimento aleatorio, y cuyo rango es un subconjunto no

vació de números reales.

X :Ω → R
w → X (w) = x

En términos aplicados la v.a. asigna a cada resultado del experimento un

número según una característica numérica de los eventos.

Ejemplo 3.1.

Sea el experimento de lanzar 3 monedas, entonces el espacio muestral de este

experimento es:

Ω ={ccc, ccs, csc, css, scc, scs, ssc, sss}

donde c: cara s: sello

Sea la v.a. X definida como

X: Número de caras observadas al lanzar 3 monedas

Entonces X asigna los siguientes valores a los resultados del experimento:

X(ccc) = 3 X(ccs) = 2 X(csc) = 2 X(css) = 1

X(scc) = 2 X(scs) = 1 X(ssc) = 1 X(sss) = 0

Luego el rango de X es RX = {0, 1, 2, 3} ⇔ x: 0, 1, 2, 3

Mg. Beatriz Castañeda S. 80


BIOESTADISTICA

El rango de una v.a. también es denominado recorrido de la v.a. y se indica por

los valores que asigna la v.a. a los resultados del experimento.

Cada valor x real define un evento en el espacio muestral, es decir,

[X = x] ⇔ A = { wi ∈ Ω / X ( wi ) = x}

por ejemplo

[X = 0] ⇔ {sss}

[X = 1] ⇔ {css, scs, ssc}

[X = 2] ⇔ {ccs, csc, scc}

[X = 3] ⇔ {ccc}

[X = 5] ⇔ φ

[X = -1] ⇔ φ

Variable aleatoria discreta

Se dice que una v.a. X es discreta si su recorrido (Rx) es un conjunto

numerable de puntos. Esto es, se pueden anotar los valores posibles de X

como x1, x2, …, xn, …. En el caso finito la lista termina y en el caso infinito

numerable la lista continúa indefinidamente.

El recorrido de una variable aleatoria discreta divide al espacio muestral en

conjuntos excluyentes y colectivamente exhaustivos.

Mg. Beatriz Castañeda S. 81


BIOESTADISTICA

Distribución de probabilidad de una variable aleatoria discreta


(Función de cuantía o Función de probabilidad puntual)

La distribución de probabilidad de una v.a. discreta se puede representar con

una fórmula, tabla o gráfica que proporciona las probabilidades asociadas a

cada valor posible de la variable aleatoria.

f(x) = P[X = x] = P( A = { wi ∈ Ω / X ( wi ) = x} )

La función f para que sea función de cuantía debe cumplir con las siguientes

restricciones:

1) f(x) ≥ 0 ∀ x ∈ R

2) ∑ f ( x ) = ∑ f ( x ) =1
−∞ x∈ R x

Ejemplo 3.2.

Hallaremos la distribución de probabilidad de la v.a. X, número de caras

observadas al lanzar 3 monedas.

1) Forma tabular

x f(x)
0 1/8
1 3/8
2 3/8
3 1/8
Suma 1

2) Forma de función

1 / 8 , si x = 0, 3

f ( x ) = 3 / 8, si x = 1, 2
0 para otro valor x

Mg. Beatriz Castañeda S. 82


BIOESTADISTICA

3) Forma gráfica

f(x)

3/8

1/8

X
0 1 2 3
Gráfico 11. Función de cuantía de variable discreta

Variable aleatoria continua

Se dice que una v.a. X es continua si puede tomar un número infinito y

continuo de valores dentro de un intervalo real, como por ejemplo el tiempo

utilizado para ejecutar una cierta tarea, el peso de un objeto, la duración sin

fallas de un producto eléctrico, etc.

Para asignar probabilidades a las v.a. continuas se parte del estudio empírico

de grandes muestras y de aproximar la curva del polígono de frecuencias con

una función matemática a la que denominamos función de de densidad de

probabilidad.

En el siguiente gráfico se muestra el histograma y polígono de frecuencias de

la edad de mujeres trabajadoras en el sector textil, el cual se buscará de

aproximar con un modelo matemático.

Mg. Beatriz Castañeda S. 83


BIOESTADISTICA

Gráfico 12

Edad de mujeres trabajadoras en el


Sector Textil

12
10
Nº de mujeres

8
6
4
2
0
10 - 19 20 - 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 80 - 89
Edad (años)

Distribución de probabilidad de una variable aleatoria continua


(Función de densidad de probabilidad)

Una función f se denomina función de densidad de probabilidad si satisface las

condiciones siguientes:

1) f(x) ≥ 0 ∀ x ∈ R

2)
−∞
∫ f ( x )∂x =1
3) Para cualquier intervalo, la probabilidad de X tome valor en el intervalo

se obtiene como el área bajo la curva f(x), es decir;

P(a ≤ X ≤ b) = ∫ f ( x ) ∂x
a

Ejemplo 3.3.

Sea X la v.a. que mide la vida en horas de cierto tipo de lámpara de radio que

tiene función de densidad

Mg. Beatriz Castañeda S. 84


BIOESTADISTICA

100
 si x > 100
f ( x) =  x2
0 si x ≤ 100

¿Cuál es la probabilidad de que una lámpara de radio de este tipo pueda durar

máximo 150 horas?

Luego deseamos calcular

150 150 150


100 100 100  100 100
P(X ≤ 150) = ∫ 2 ∂x = ∫ 2 ∂x = −  =− + = 1/ 3
−∞ x 100 x x 100 150 100

Que representa el área bajo la curva de densidad en el intervalo de 100 a 150

f(x)

1/3

X
100 150

Gráfico 13. Función de densidad de variable contínua

Función de Probabilidad Acumulada o Función de Distribución

Dada una v.a. X se denomina función de probabilidad acumulada o función de

distribución a la función F que asigna a cada x real, la probabilidad de que la

v.a. tome valores menores o iguales a x

Mg. Beatriz Castañeda S. 85


BIOESTADISTICA

1) Si X es v.a. discreta, entonces

F(x’0 ) = P(X ≤ x0 ) = ∑ f ( x)
x ≤ x0

2) Si X es v.a. continua, entonces


x0

F(x’0 ) = P(X ≤ x0 ) = ∫ f ( x ) ∂x
−∞

Ejemplo 3.4.

a) Para la v.a. X: Número de caras observadas al lanzar 3 monedas

F(2) = P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) = 1/8 + 3/8 + 3/8 = 7/8

b) Para la v.a. X: vida en horas de las lámparas de radio de cierto tipo

F(150) = P(X ≤ 150) = 1/3

300 300 300


100 100 100  100 100
F(300) = P(X ≤ 300) = ∫ 2 ∂x = ∫ 2 ∂x = −  =− + = 2/3
−∞ x 100 x x  100
300 100

Propiedades de la función de probabilidad acumulada F(x)

1. 0 ≤ F(x) ≤1

2. Si X es v.a. discreta F(x) es discontinua, no decreciente y tiene forma

escalonada.

3. Si X es v.a. continua F(x) es absolutamente continua, no decreciente y tal

∂F ( x )
que = f ( x)
∂x

4. Si X es v.a. continua

P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b) = F(b) – F(a)

5. Si X es v.a. discreta

P(a ≤ X ≤ b) = P(a < X ≤ b) + P(X = a) = F(b) – F(a) + f(a)

Mg. Beatriz Castañeda S. 86


BIOESTADISTICA

6. P(X > x0) = 1 – P(X ≤ x0) = 1 – F(x0)

3.2. Valor Esperado y Varianza

Media o Valor Esperado (µ = E(X))

La media o valor esperado de una variable, si existe, es un valor único y nos

indica el valor alrededor del cuál toma medida la variable con mayor

probabilidad y por lo tanto es el valor que esperamos observar para esta

variable aleatoria.

1) Si X es v.a. discreta µ = E(X ) = ∑


x∈ R x
x f (x)

2) Si X es v.a. continua µ = E(X )= ∫


−∞
x f ( x ) ∂x

Si la suma o integral no son convergentes, decimos que la media o valor

esperado de X no existe o no está definida.

Ejemplo 3.5

a) Para la v.a. X: Número de caras observadas al lanzar 3 monedas

x =3
µ = E( X ) = ∑ x f ( x)
x =0
= 0 (1/8) + 1(3/8) + 2 (3/8) + 3 (1/8) = 12/8 = 1.5

Es decir al lanzar 3 monedas se espera observar entre 1 y 2 caras (ver figura

11 en pág. 83)

b) Para la v.a. X: vida en horas de las lámparas de radio de cierto tipo

Mg. Beatriz Castañeda S. 87


BIOESTADISTICA

∞ ∞
 100  1
µ = E ( X ) = ∫ x  2  ∂x = 100 ∫ ∂x = ln x ]100

=∞
100  x  100
x

Es decir la media o valor esperado de la vida de las lámparas de radio de este

tipo no está determinada, no existe, puesto que la integral no es convergente.

Varianza y Desviación estándar (σ2 = V(X); σ = V ( X ) )

La varianza y desviación estándar son medias que indican la tendencia de

dispersión de la variable aleatoria con respecto a su media. Se calcula como la

media o valor esperado de de las desviaciones cuadráticas respecto a la

media.

1) Si X es v.a. discreta

σ 2
= V ( X ) = E [( X − µ ) 2 ] = ∑ (x − µ)
x∈ R x
2
f (x)

Simplificando la expresión

σ 2 = E(X 2 ) − µ 2 = ∑x
x∈ R x
2
f ( x) − µ 2

2) Si X es v.a. continua


σ = V ( X ) = E[( X − µ ) ] = ∫ ( x − µ) f ( x) ∂x
2 2 2

−∞

Simplificando la expresión


σ = E( X ) − µ = ∫x f ( x ) ∂x − µ 2
2 2 2 2

−∞

Mg. Beatriz Castañeda S. 88


BIOESTADISTICA

Ejemplo 3.6.

a) Para la v.a. X: Número de caras observadas al lanzar 3 monedas

µ = 1.5

Obtenemos su varianza

σ 2 = E( X 2 ) − µ 2 = ∑x
x∈ R x
2
f ( x) − µ 2

= { 0 (1/8) + 1 (3/8) + 22 (3/8) + 32 (1/8) } - (1.5)2


2 2

= 24/8 – 2.25

= 0.75

σ2 = 0.87

Valor Esperado de una función de variable aleatoria

Si X es v.a. con f(x) función de cuantía o función de densidad de probabilidad y

si Y=G(X) es una función uno a uno de X, entonces el valor esperado de Y se

obtiene como:

1) E (Y ) = E[G ( X )] = ∑ G( x ) f ( x )
−∞
Si X es v.a. discreta.

2) E (Y ) = E[G ( X )] = ∫ G ( x ) f ( x ) ∂x
−∞
Si X es v.a. continua.

Propiedades de valores esperados

1. Si X es v.a. con E(x) = µ V(X) = σ2 , luego

a) si G(x) = c, c constante real, entonces E[G(x)] = c; V[G(x)] = 0

b) Si G(x) = a + bx, entonces E[G(x)] = a+b E(x); V[G(x)] = b2 V(x)

Mg. Beatriz Castañeda S. 89


BIOESTADISTICA

2. Si X e Y son v.a., entonces

a) E(a X + b Y) = a E(X) + b E(Y)

b) V(a X + b Y) = a2 V(X) + b2 V(Y) +2ab Cov(X,Y)

Si X e Y son independientes Cov(X,Y) = 0, entonces

V(a X + b Y) = a2 V(X) + b2 V(Y)

Práctica domiciliaria 4

1. Sea f(x) = (3/4) (1/4)x , x = 0, 1, 2, .......

a) ¿Cuál es el valor de P(X = 2)?

b) Calcule P(X > 2)

c) Obtenga E(X) y V(X)

2. El espesor de un entablado de madera (en pulgadas) que algún cliente

ordena, es una variable aleatoria que tiene la siguiente función de

distribución acumulada:

0 , sí x < 1/8
0.2 , sí 1/8 < x < 1/4
F(x) = 0.9 , sí 1/4 < x < 3/8
1 , sí x > 3/8

Determine las probabilidades siguientes:

a) P(X > 1/4)

b) P(X < 5/16)

c) P(X < 1/2)

Mg. Beatriz Castañeda S. 90


BIOESTADISTICA

3. En cierta ciudad, el consumo diario de energía eléctrica (en millones de

kilowatt-hora) puede considerarse como una variable aleatoria que tiene la

siguiente densidad de probabilidad

f(x) = x2 e-x/2 ; si x > 0 y f(x) = 0 ; para otro valor de x


16

a) Obtenga el promedio y desviación estándar del consumo de energía

eléctrica para esta ciudad.

b) Si la planta de energía de esa ciudad tiene una capacidad diaria de 12

millones de kilowatt-hora, ¿cuál es la probabilidad de que este

abastecimiento de energía sea inadecuado un día cualquiera

4. En cierto juego se lanzan tres dados y un jugador apuesta sobre la salida

de un número que él elige. Si gana $1 cuando su número sólo aparece en

un dado, $2 si aparece en dos dados, $3 si sale el número en los tres dados

y si pierde $1 cuando su número no sale en ninguno de los dados.

Determinar cuanto puede esperar ganar un jugador (en el sentido de

esperanza matemática).

5. Sea X: El número de lanzamientos de una moneda hasta que aparece cara

a) Hallar P(X sea par),

b) Obtener el número esperado de lanzamientos y la varianza del número

de lanzamientos.

6. Las primeras 5 repeticiones de un experimento cuestan $10 cada una, y

todas las subsiguientes tienen un valor de $5 cada una. Suponer que el

experimento se repite hasta obtener el primer resultado exitoso. Si la

probabilidad de un resultado exitoso es siempre igual a 0.9 y si las

Mg. Beatriz Castañeda S. 91


BIOESTADISTICA

repeticiones son independientes, ¿Cuál es el costo esperado de la

operación completa?

7. Se sabe que un lote contiene 2 artículos defectuosos y 8 no defectuosos. Si

estos artículos se inspeccionan al azar, uno después de otro, ¿cuál es el

número esperado de artículos que se deben escoger para inspección a fin

de sacar todos los defectuosos?

8. La escala electrónica de un proceso de llenado automático detiene la línea

de producción después de haber detectado tres paquetes con un peso

menor que el especificado. Suponga que la probabilidad de llenar un

paquete con un peso menor es 0.001 y que cada operación de llenado es

independiente.

a) ¿Cuál es el número promedio de operaciones de llenado antes de que se

detenga la línea de producción?

b) ¿Cuál es la desviación estándar del número de operaciones de llenado

antes de que se detenga la línea de producción?

9. Un sistema tolerante a fallas que procesa transacciones para una compañía

de servicios financieros, utiliza tres computadoras por separado. Si la

computadora que está en operación falla, cualquiera de la dos de reserva

puede ponerse de inmediato en línea. Después de que falla la segunda

computadora, la tercera puede ponerse en línea de inmediato. Suponga que

la probabilidad de una falla durante cualquier transacción es 10-8 y que las

transacciones pueden considerarse como eventos independientes.

a) ¿Cuál es el número promedio de transacciones previas a la falla de las

tres computadoras?

Mg. Beatriz Castañeda S. 92


BIOESTADISTICA

b) ¿Cuál es la varianza del número de transacciones previas a la falla de

todas las computadoras?

10.En cierto servicio telefónico, la probabilidad de que una llamada sea

contestada en menos de 30 segundos es 0.75. Suponga que las llamadas

son independientes.

a) ¿Cuál es la probabilidad de tener que llamar cuatro veces para obtener

la primera respuesta en menos de 30 segundos?

b) Hallar la función de cuantía del número de llamadas que es necesario

realizar para obtener la primera respuesta en menos de 30 segundos.

c) Calcular la probabilidad de que el número de llamadas sea superior a 3

11.El espesor de un recubrimiento conductor, en micrómetros (µm), tiene una

función de densidad f(x) = 600 /x2 para 100 µm < x < 120 µm; 0 en otro

caso.

a) Calcule la media y la varianza del espesor del recubrimiento

b) Si el costo del recubrimiento es $ 0,50 por micrómetro de espesor en

cada pieza, ¿cuál es el costo promedio del recubrimiento por pieza?

c) Obtenga el percentil 75 del espesor del recubrimiento. Interprete.

12.Un blanco está formado por 2 círculos concéntricos de radio 2 y 4 cm. Los

disparos que impactan en el círculo interior valen 4 puntos, los que impactan

en el anillo valen 2 puntos y los que impactan fuera del blanco valen cero

puntos. Sea X la v.a. que representa la distancia del impacto al centro del

blanco, tal que para determinado tirador tiene f.d.p.

f(x) = ½ e-x/2 ; si x > 0

Mg. Beatriz Castañeda S. 93


BIOESTADISTICA

a) Calcular la probabilidad de obtener 4 puntos al realizar un disparo.

b) Describir el espacio muestral para los puntajes observados luego de

realizar 2 disparos.

c) Calcular la probabilidad de obtener un total de 4 puntos al realizar 2

disparos.

d) Si Y es el puntaje total obtenido al realizar dos disparos, obtener el valor

esperado de Y.

13.Suponiendo que D la demanda diaria de un artículo, es una variable

aleatoria con la siguiente distribución de probabilidad:

P(D=d) = k 2d , para d= 1,2,3,4

d!

a) Determinar el valor de k .

b) Calcular la demanda esperada.

c) Suponga que el costo de un artículo es de $3 y se vende por $5, y

cualquier artículo que no se venda al término del día debe desecharse

con una pérdida total. Si un fabricante produce diariamente 3 artículos,

¿cuál es su utilidad esperada?

Mg. Beatriz Castañeda S. 94


BIOESTADISTICA

3.3. DISTRIBUCIONES DE VARIABLES DISCRETAS


3.3.1. DISTRIBUCION DE BERNOULLI

El experimento de Bernoulli se caracteriza por tener dos posibles resultados a

los que usualmente se denominan “éxito” y “fracaso”, por ejemplo

- Al lanzar una moneda resulta cara o sello.

- Al lanzar dos dados y observar si la suma de puntos es 7 o diferente de 7

- Al observar la reacción de un paciente a un tratamiento este puede mejorar o

no mejorar

- Un paciente examinado puede tener fiebre o no tenerla.

- Un producto puede ser defectuoso o no defectuoso

- A la exposición a un contaminante los individuos pueden desarrollar cierta

enfermedad o no desarrollarla

En cada uno de estos experimentos sea,

P(éxito) = P y P(fracaso) = 1-P = Q

Definamos la variable aleatoria

X : Número de éxitos en el ensayo de Bernuolli

Entonces el recorrido es x : 0, 1

1 − P si x = 0
La función de cuantía: f ( x) = 
P si x = 1

Luego E(X) = P y V(X) = P(1-P)

La distribución de probabilidad de la v.a. X definida para un ensayo de Bernoulli

es conocida como la distribución de Bernoulli.

Mg. Beatriz Castañeda S. 95


BIOESTADISTICA

3.3.2. DISTRIBUCION BINOMIAL

Sea un proceso que consiste en observar n “pruebas” independientes de

Bernoulli, es decir, que pueden tener 2 posibles resultados denominados éxito

y fracaso, tales que para cada prueba se considera que

P(éxito) = P ; P(fracaso) = 1 – P = Q

Luego la variable aleatoria definida como

X: Número de éxitos en las n pruebas independientes

x: 0, 1, 2, ..., n (valores que puede asumir x)

Se denomina variable binomial y la función de cuantía esta dada por el

modelo:

 n
f ( x) = P( X = x ) =   P x (1 − P)n−x si x : 0, 1, 2, ..., n
 x

µ = E( X ) = nP
σ 2 =V( X ) = nP(1 − P)

Ejemplo 3.7.

Un examen de opción múltiple contiene 25 preguntas, cada una con 5

alternativas de respuestas. Suponga que un estudiante sólo adivina las

respuestas.

a) ¿Cuál es la probabilidad de que el estudiante conteste de manera

correcta más de 10 preguntas?

Mg. Beatriz Castañeda S. 96


BIOESTADISTICA

b) Si al examen se presentaran 200 estudiantes, con este mismo patrón de

respuesta ¿cuál es el número esperado de aprobados, si para aprobar

debe contestar de manera más de 10 preguntas?

Si un estudiante elige al azar las respuestas, entonces

Para cada pregunta la respuesta es correcta (RC) o incorrecta (RI) con

probabilidades:

P(RC) = 1/5 = 0.20 P(RI) = 0.80

Y si X: Número de respuestas correctas entre las 25 preguntas del examen


Luego X es binomial ya que cuenta el número de éxitos en n pruebas

independientes

 25 
f ( x ) =   0.20 x 0.80 25 − x si x : 0, 1, 2, ..., 25
 x
Aplicando el modelo

25
 25 
a) P ( X > 10) = P ( X ≥ 11) = ∑  x  0.20 x
0.80 25− x = 0.0056
11  

b) En este caso se consideran 200 estudiantes que contestaran el examen,

donde cada uno puede aprobar (responder correctamente más de 10

preguntas) o no aprobar, luego

P(aprobar) = 0.0056 P(No aprobar) = 0.9944 para cada estudiante

Mg. Beatriz Castañeda S. 97


BIOESTADISTICA

Como los estudiantes son independientes unos de otros al escoger las

respuestas, entonces la variable

Y: Número de estudiantes que aprueben el examen entre los 200 que lo

rindan

Es Binomial con n= 200 y P= 0.0056

Por lo tanto E(Y) = nP = 200x0.0056 =1.12

Se espera que sólo uno de los 200 estudiantes apruebe el examen si responde

al azar adivinando las respuestas.

Ejercicio

Supóngase que se sabe que la probabilidad de recuperación de cierta

enfermedad es de 0,40. Si 15 personas contraen la enfermedad (considérese

esto como una muestra aleatoria), ¿cuál es la probabilidad de que

a) Tres o más se recuperen?

b) Cuatro o más se recuperen?

c) Cinco o más se recuperen?

d) Menos de tres se recuperen?

Mg. Beatriz Castañeda S. 98


BIOESTADISTICA

3.3.3. DISTRIBUCION HIPERGEOMÉTRICA

El experimento consiste en extraer una muestra aleatoria de n elementos sin

reposición, de un conjunto que contiene N elementos los cuales se clasifican

en dos categorías A y Ac, siendo T el número de elementos de clase A y (N -T)

el número de elementos de clase Ac

Población N

A Ac
P=T
T N –T N
Proporción de elementos
A en la población

Muestra n

A Ac
p=x
x n-x n
Proporción de elementos
A en la muestra
Donde la v.a. X se define como

X : Número de elementos A en la muestra

x: 0, 1, 2, …., n si y sólo si n ≤ T y n ≤ N -T

Luego como en este experimento no interesa el orden en la selección de

elementos, entonces las probabilidades asignadas para cada x son:

Mg. Beatriz Castañeda S. 99


BIOESTADISTICA

T  N − T 
    
  x   n − x 
f ( x) =  N x : 0, 1, 2, ..., n si n ≤ T y n ≤ N − T
  
 n
0 para otro valor x

Media y Varianza

T T   N − T  N − n   N −n
µ = E( X ) = n = nP; σ 2 = n      = nP (1 − P )  
N N   N  N − 1   N −1 

Ejemplo 3.8

Mecanismos de dirección defectuosos han sido montados por error en 3 de un

grupo de 9 misiles. No se sabe que misiles tienen los mecanismos defectuosos.

Si se toma una muestra al azar de 4 misiles ¿cuál es la probabilidad de que:

a) La muestra no contenga misiles defectuosos?

b) La muestra contenga 2 misiles defectuosos?

Considerando el enunciado definimos

X: Número de mísiles con mecanismos defectuosos en la muestra

Luego X tiene distribución hipergeométrica y

 3  6
   
0 3
a) P ( X = 0) =     = 0.238
 9
 
 3

 3  6
   
2 1
b) P ( X = 2) =     = 0.214
 9
 
 3

Mg. Beatriz Castañeda S. 100


BIOESTADISTICA

Ejercicio

Ciertos componentes para ensamble se envían en lotes de 25 unidades, para

la aceptación de un lote se seleccionan 3 componentes al azar y si ninguno de

ellos tiene defectos se acepta el lote. ¿Cuál es la probabilidad de que se acepte

el lote si contiene:

a) cinco defectuosos?

b) Dos defectuosos?

Aproximación de la Distribución Hipergeométrica a la binomial

Si el muestreo es sin reposición, tenemos que el comportamiento probabilístico

de X se aproxima al modelo Binomial cuando la población es grande (es decir

N grande)

T  N − T 
   
x n − x  =  n  P x (1 − P )n − x
lim     x ; haciendo P = T/N
n→ ∞ N  
 
n

n
P ( X = x ) ≅   P x (1 − P ) n − x ;
 x
 N −n
µ = nP ; σ 2 = nP (1 − P )  ≅ nP (1 − P )
 N −1 
n
Para N tal que ≤ 0 . 10 decimos que N es grande
N

Mg. Beatriz Castañeda S. 101


BIOESTADISTICA

Ejemplo 3.9

De un lote de 200 unidades de las cuales 10 son defectuosas se obtiene una

muestra aleatoria de tamaño 4. Halle la probabilidad de que esta contenga un

artículo defectuoso.

Podemos definir la variable

X: Número de artículos defectuosos en la muestra

entonces X tiene distribución hipergeomética, pero se cumplen las

condiciones para aproximar a l binomial con n = 4 y P = 10/200 = 0.05, pues la

fracción de muestreo

n 4
= = 0.02 < 0.10
N 200

 4
Luego P ( X = 1) =   0.05 (0.95) 3 =0.1715
 1

Si calculamos la probabilidad exacta con el modelo hipergeométrico

 10   190 
   
 1   3 
P ( X = 1) = = 0.1739
 200 
 
 4 

El error de aproximación es de 2,4 milésimas

Mg. Beatriz Castañeda S. 102


BIOESTADISTICA

3.3.4. DISTRIBUCIÓN DE POISSON

Este modelo es considerado cuando la medición es el resultado de observar la

ocurrencia de un “evento” o “hecho” por unidad especificada de tiempo,

longitud, superficie o volumen, es decir,

X: Número de “hechos” por unidad especificada

Donde X: 0, 1, 2, .....

entonces,

−λ λx
f ( x) = P( X = x) = e ; µ =λ ; σ 2 =λ
x!

λ es el número promedio o esperado de “hechos”por unidad especificada.

Este modelo es aplicable sobre todo cuando:

1. Las ocurrencias de los eventos en cada unidad de observación son

independientes de las otras unidades.

2. Teóricamente, debe ser posible un número muy grande de ocurrencias del

evento.

3. El promedio o valor esperado de eventos por unidad es una cantidad

constante λ y es proporcional al tamaño de la unidad especificada

4. Si consideramos una unidad infinitesimalmente pequeña, la probabilidad de

que el hecho ocurra más de una vez es despreciable.

Ejemplo 3.10. El número promedio de averías semanales de una computadora

es 0,4 ¿cuál es la probabilidad de que la computadora trabaje sin averías

durante 2 semanas consecutivas.

Mg. Beatriz Castañeda S. 103


BIOESTADISTICA

Se conoce que λ = 0,4 averías /semana.

Se desea calcular

P(La computadora trabaje sin averías 2 semanas consecutivas) = P(X= 0)

Entonces definimos

X: Número de averías en la computadora cada dos semanas

con λ = 0,8 averías / 2 semanas

0,8 0
P ( X = 0) = e − 0.8 = 0,449
0!

Ejercicio

Si el número promedio de accidentes graves por año en una fábrica grande es

de cinco, encuentre la probabilidad de que en el año en curso:

a) Haya exactamente siete accidentes.

b) Ocurran diez o más accidentes.

c) No haya accidentes.

d) Haya menos de cinco accidentes

APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL A LA DISTRIBUCIÓN


DE POISSON

Cuando el número de pruebas “n” es grande y la probabilidad de éxito “p” es

pequeña

n ≥ 100 y p ≤ 0,05

entonces las probabilidades binomiales se aproximan a las probabilidades de

poisson,

Mg. Beatriz Castañeda S. 104


BIOESTADISTICA

P( X = x ) ≅ P( X = x )

Binomial (n,p) Poisson (λ = np)

Es decir :

 n x −λ λ
x
lim   P (1 − P ) n− x
= e , haciendo λ = nP
 x x!

Ejemplo 3.11.

El 3% de las personas que reciben un tratamiento para cierta enfermedad no

se recuperan. Si 180 pacientes con ésta enfermedad están recibiendo el

tratamiento, ¿cuál es la probabilidad de que:

a) Más de 10 no se recuperen

b) Todos se recuperen

c) Sólo 3 no se recuperen

En este caso

X: Número de pacientes que no se recupera entre los 180 que recibe el

tratamiento

Luego X es binomial con n = 180 P = 0.03

Como n > 100 y P < 0.05 podemos aprximar a la Poisson con λ = nP =5,4

a) P(X > 10) = 1- P(X ≤ 10) = 1- 0.977 = 0.023

b) P(Todos se recuperen) = P( X = 0) = 0.005

c) P( X= 3) = 0.1185

Mg. Beatriz Castañeda S. 105


BIOESTADISTICA

Ejercicio

Una compañía de seguros halla que el 0.005% de la población fallecía cada

año debido a cierto tipo de accidente, ¿cuál es la probabilidad de que tenga

que pagar a más de 3 de 10 000 asegurados contra tales accidentes en un

año?

3.4. DISTRIBUCIONES DE VARIABLES CONTINUAS

3.4.1. Distribución Exponencial

Si X es v.a. continua con función de densidad de probabilidad (fdp)

λ e − λx ; si x > 0
f ( x) =  ; con λ > 0
 0 para otro valor x

decimos que X tiene distribución exponencial con parámetro λ

1 1 1
Media y Varianza: µ= ; σ2 = 2 ; σ =
λ λ λ

Relación entre el modelo de Poisson y el Modelo Exponencial

La distribución exponencial se aplica para el estudio de tiempos en procesos

de fenómenos de espera, y se relaciona con el modelo de Poisson, así:

Sea la v.a. con distribución de Poisson con E(X) = λ

X: nº de hechos ocurridos en un periodo de tiempo T

Entonces t: Tiempo transcurrido entre 2 hechos consecutivos

Tiene distribución exponencial con parámetro λ

Mg. Beatriz Castañeda S. 106


BIOESTADISTICA

Ejemplo 3.14.

Sea la v.a.

X: nº de llamadas que recibe una central telefónica en una hora,

Con λ = 20 llamadas/hora

Es decir esperamos que en cada hora la central telefónica reciba alrededor de

20 llamadas.

Luego la variable

T: El tiempo transcurrido entre 2 llamadas consecutiva

tiene distribución exponencial con λ = 20

 20 e −20 t ; si t > 0 1 60 min


f (t ) =  ; t en horas µ= de hora = = 3 min
0 para otro valor t 20 20

Es decir en promedio el tiempo transcurrido entre la recepción una llamada y la

siguiente es de 3 minutos.

Si deseamos calcular

∫ 20 e
− 20 t
P(T > 5 min) = P(T > 1/12 h) = dt = e − 20 (1 / 12 ) = 0.189
1 / 12

P (Recibir 5 llamadas en 30 minutos) = P(X = 5) = e-10 105/5! = 0.038

Mg. Beatriz Castañeda S. 107


BIOESTADISTICA

3.4.2. DISTRIBUCIÓN NORMAL

Dada una variable aleatoria X con función de densidad de probabilidad

2
1 x−µ 
−  
2 σ 
e
f ( x) = ; −∞ < x < ∞
2π σ

decimos que X tiene distribución normal de media = µ y varianza = σ2

Escribimos: X es N(µ, σ2)

Características

1. La distribución es simétrica respecto a su media µ

Es decir P( X < µ - k ) = P( X > µ + k )

ˡ ˡ X
µ-k µ µ+k

2. La media, mediana y la moda de la distribución son iguales


µ = Me = Mo

X
µ
Mo
Me

Mg. Beatriz Castañeda S. 108


BIOESTADISTICA

3. La distribución es asintótica respecto al eje de abscisas

P( µ - σ < X < µ + σ ) = 0.683

68%

x
µ- σ µ µ+σ

P( µ - 2σ < X < µ + 2σ ) = 0.9545

95%

X
µ - 2σ µ µ + 2σ

P( µ - 3σ < X < µ +3σ ) = 0.9973

99.7%

X
µ - 3σ µ µ + 3σ

Mg. Beatriz Castañeda S. 109


BIOESTADISTICA

Propiedades

1. Si X es N(µx, σx2), entonces

Y = a + b X es normal

Con µy = a + b µx y σ2y = b2 σx

2. Si X1, X2, ...Xn son n variables independientes cada una con distribución

normal N(µi, σi2), entonces

Y = a1 X1 + a2 X2 + ...... + an Xn es normal

Con µy = a1 µ1 + a2 µ2 + ..... + an µn

σ2y = a12 σ12 + a22 σ22 + .... + an2 σn2

3. Si X es N(µx, σx2), entonces

X −µ
Z=
σ
Se denomina variable estandarizada y tiene distribución normal con

µZ = 0 σ 2Z = 1

Simbolizamos Z es N(0,1)

Mg. Beatriz Castañeda S. 110


BIOESTADISTICA

Uso de la tabla de la normal estándar

P( Z ≤ z )

Z
z 0

1) P(Z < -1.5) = 0.06681

6.7%
Z
-1.5

2) P(Z < 2.45) =0.99286

99.3%

Z
2.45

3) P(-1.5 < Z < 2.45) = P(Z < 2.45)- P(Z < -1.5)

= 0.99286 – 0.06681 = 0.926

92.6%

Z
-1.5 2.45

Mg. Beatriz Castañeda S. 111


BIOESTADISTICA

4) P(Z > 1.5) = P(Z < -1.5) = 0.06681

6.7% 6.7%

Z
-1.5 1.5

Ejemplo 3.15

1. En la realización de una prueba los alumnos tardan en promedio 2,1

minutos en examinar y comprender cada pregunta. Suponga que el tiempo

que se tardan se distribuye en forma normal y que la desviación estándar

es de 0,6 minutos.

a) ¿Qué porcentaje de los alumnos tardan entre 2,45 y 3,55 minutos?

b) Si el tema consiste de 5 preguntas ¿qué porcentaje de los alumnos

comprenderá el tema en un lapso entre 5 y 15 minutos?

c) ¿Qué tiempo necesitarán, para comprender el tema, el 10% más hábil y

el 10% menos hábil?

Sea X: Tiempo utilizado para la comprensión de cada pregunta

X es Normal con µ = 2,1 minutos σ = 0,6 minutos, entonces

a) P(2,45 < X < 3,55) = 0.273

0.273

X
2,1 2,45 3,55

Z = 0.58 Z= 2.42

Mg. Beatriz Castañeda S. 112


BIOESTADISTICA

Luego el 27,3% de los alumnos tardan entre 2,45 y 3,55 minutos.

b) El tema consiste de 5 preguntas, entonces el tiempo para la

comprensión del tema será la suma de tiempos para la comprensión de

cada pregunta, así

Y: Tiempo para la comprensión del tema

Y = X 1 + X2 + X3 + X 4 + X 5

Donde Xi es el tiempo para lo comprensión de la pregunta i, el cual es

independiente del tiempo utilizado para la comprensión de las otras

preguntas.

Por propiedad del modelo normal, entonces

Y es normal con µ y = 2,1 x 5 = 10,5 min utos y σ y = 5 x (0.6) 2 = 1.34 min utos

99.96%

X
5 10,5 15

Z = -4.10 Z = 3.36

Luego

P( 5 < Y < 15 ) ≅ 1

Mg. Beatriz Castañeda S. 113


BIOESTADISTICA

c) El tiempo que necesita para la comprensión del tema el 10% más hábil

y el 10% menos hábil implica obtener las cuantilas del 10% y del 90%,

para lo cual obtenemos de las tablas las cuantilas de la normal estándar

y luego despejamos las cuantilas de la variable X

80%

10% 10%
X
X0.10 10.5 X0.90

Z0.10 = -1.28 Z0.90 = 1.28

X 0.10 − 10.5
Z 0.10 = = −1.28 ⇒ X 0.10 = 8.78 min utos
1.34

X 0.90 − 10.5
Z 0.90 = = 1.28 ⇒ X 0.90 = 12.22 min utos
1.34

Luego para la comprensión del tema el 10% de los alumnos más hábiles

requiere máximo 8,78 minutos y el 10% menos hábil requiere mínimo 12,22

minutos

Ejercicio

las vidas útiles de las pilas de cierta marca están distribuidas normalmente

con una media de 80 horas y una desviación estándar de 10 horas. El

fabricante garantiza que reemplazará cualquier pila que falle antes de

Mg. Beatriz Castañeda S. 114


BIOESTADISTICA

cumplirse la garantía. ¿cuánto tiempo debe dar de garantía de modo que no

más del 5% de las pilas fallen antes de este tiempo?

APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL


A LA DISTRIBUCIÓN NORMAL

Dada una variable X con distribución Binomial (n,p), donde p = 0.50.

Se cumple que las probabilidades de valores de X son simétricas para valores

alrededor de su media µ = np

Ejemplo: consideremos las funciones de cuantía para p =0,50

.375
.375 .375
.50 .25 .25

.25 .25 .125 .125 .063 .063

0 1 2 0 1 2 3 0 1 2 3 4

n=2 np = 1 n =3 np = 3/2 n=4 np = 2

x
0 np n

Luego si np > 5 y n(1-p) > 5, por el Teorema del límite Central (Pág.

129) la distribución binomial se aproxima al modelo normal y las probabilidades

Mg. Beatriz Castañeda S. 115


BIOESTADISTICA

binomiales se pueden calcular de manera aproximada utilizando el modelo


2
normal con media µ = np y σ = np(1- p), de la siguiente manera:

P( X = xo ) ≅ P[ xo – 0,5 < X < xo + 0,5]

Binomial Normal factor de corrección


de continuidad

P( X ≤ xo ) ≅ P[ X < xo + 0,5]

Binomial Normal

P( X ≥ xo ) ≅ P[ X > xo - 0,5]

Binomial Normal

P( x1 ≤ X ≤ x2 ) ≅ P[x1 – 0,5 ≤ X ≤ x2 + 0,5]

Binomial Normal

Ejemplo 3.16.

Según los archivos el 15% de los trabajadores de las plantas de cemento son

afectados por el sílice, desarrollando neumoconiosis.

a) Si un organismo estatal selecciona, al azar, 16 trabajadores de una

planta de cemento para evaluar su estado de salud, ¿cuál es la

probabilidad de que a lo más el 25% de los trabajadores, de la muestra,

haya desarrollado neumoconiosis? La planta tiene 500 trabajadores.

Mg. Beatriz Castañeda S. 116


BIOESTADISTICA

b) ¿Cuál sería la probabilidad en a) si se elige una muestra de 40

trabajadores para ser evaluados por el servicio de salud?

Sea X: Número de trabajadores en la muestra que ha desarrollado la

neumoconiosis.

Como n = 16 N = 500 la fracción de muestreo n/N = 0.032 < 0.10

La distribución de X se aproxima a la Binomial con n = 16 P = 0.15

Se desea calcular

P(A lo más el 25% de la muestra haya desarrollado neumoconiosis)

= P(X ≤ 4) = 0.921

Esto es, se tiene 92% de probabilidad de que entre los 16 trabajadores

elegidos a lo más 4 hayan desarrollado la enfermedad.

a) Si la muestra es de 40 trabajadores, entonces podemos aproximar la

probabilidad indicada con el modelo normal pues se cumple las

condiciones, es decir, nP = 40 x 0.15 = 6 y n(1-P) = 40 x 0.85 = 34 > 5

Luego X : Número de trabajadores en la muestra que ha


desarrollado la neumoconiosis.

Se aproxima a la normal con µ = nP = 6 y σ = nP (1 − P ) = 2.26

Se desea calcular

P(A lo más el 25% de la muestra haya desarrollado neumoconiosis)

Mg. Beatriz Castañeda S. 117


BIOESTADISTICA

10.5 − 6
= P ( X ≤ 10) ≅ P ( X ≤ 10.5) = P ( Z ≤ ) = P ( Z ≤ 1.99) = 0.9767
2.26

Esto es, se tiene 97% de probabilidad de que entre los 40 trabajadores

elegidos a lo más 10 hayan desarrollado la enfermedad.

Ejercicio

En cierto país en vías de desarrollo, el 30% de los niños está desnutrido. En

una muestra al azar de 80 niños de esta área, cuál es la probabilidad de que el

número de niños desnutridos sea

a) exactamente de 32?

b) menor de 20?

c) De 20 o más?

d) Entre 15 y 20 inclusive?

PRACTICA DOMICILIARIA 5

1. El tiempo que transcurre entre llamadas a una empresa de artículos de

plomería tiene una distribución exponencial con un tiempo promedio entre

llamadas de 15 minutos.

a) ¿Cuál es la probabilidad de que no haya llamadas en un lapso de 30

minutos?

b) ¿Cuál es la probabilidad de recibir al menos una llamada en un intervalo de

10 minutos?

c) ¿Cuál es la probabilidad de recibir la primera llamada entre 5 y 10 minutos

después de haber abierto la empresa?

Mg. Beatriz Castañeda S. 118


BIOESTADISTICA

d) Calcule la dimensión de un intervalo de tiempo, de modo tal que la

probabilidad de recibir al menos una llamada en ese lapso sea 0.90.

2. Un cargamento de 120 alarmas contra robo contiene 20 defectuosas.

a) Si 25 de ellas son seleccionadas aleatoriamente y embarcadas por un

cliente, encuentre la probabilidad de que al cliente le toque 2

defectuosas.

b) Si 5 de ellas son seleccionadas aleatoriamente y embarcadas por un

cliente, encuentre la probabilidad de que al cliente le toque 2

defectuosas.

3. En un astillero el personal de servicio técnico para reparaciones recibe en

promedio 3 pedidos de atención por jornada de trabajo. Cada pedido es

atendido por un técnico. Si el servicio cuenta con 5 técnicos ¿cuál es la

probabilidad de que en una jornada de trabajo no pueda atender a todos los

pedidos que recibe?

4. Un reloj de pared es alimentado por 3 pilas. Supóngase que la vida de una

pila está normalmente distribuida con µ = 1200 horas y σ = 100 horas. El

reloj cesará de funcionar si se agota al menos 2 de sus pilas. Suponiendo

que las vidas de las pilas son independientes calcule la probabilidad de que

el reloj funcione más de 1000 horas.

5. Una serie de ocho lámparas se conecta de tal forma que si una de ellas

falla, el sistema no funcionará. Si dos lámparas fallan:

a) ¿Cuál es la probabilidad de que la primera que se inspecciones, sea la

que haya fallado?

Mg. Beatriz Castañeda S. 119


BIOESTADISTICA

b) ¿Cuál es la probabilidad de encontrar las dos que fallan si se

inspeccionan cuatro de ellas?

c) ¿cuántas lámparas se deben inspeccionar para tener un 70% de

probabilidad de encontrar las dos lámparas defectuosas?

6. Se ha encontrado que el número de fallas de transistores en un computador

electrónico en cualquier periodo de una hora ocurre a un promedio de una

falla de un transistor cada 10 horas. Se inicia cierto proceso que necesita 20

horas de tiempo de cómputo, en un computador que utiliza 8 transistores.

Encontrar la probabilidad de que el proceso anterior pueda completarse

exitosamente sin una falla. (Se supone que la máquina se considera

inoperante sólo si fallan 3 o más transistores.)

7. Una compañía alquila tiempo en computadora por periodo de t horas por lo

cual recibe S/.60 por hora. El número de veces que la computadora falla

durante t horas ocurre a una tasa de 0.8t y si la computadora falla x veces

durante t horas la reparación tiene un costo de 5x² soles. ¿Cómo debería la

compañía elegir t en forma tal que maximice la utilidad esperada?

8. El número de personas que comen en un restaurante es aproximadamente

normal, con una media de 500 y una desviación estándar de 40 por día.

a) En determinado día, ¿cuál es la probabilidad de que por lo menos haya 400

clientes?

b) Calcule la probabilidad de que 450 a 530 clientes coman en el restaurante.

c) Si el consumo promedio por cliente es de S/. 8 ¿cuál es el consumo diario

esperado?

d) ¿Cuál es la probabilidad de que el consumo exceda de S/. 4500

Mg. Beatriz Castañeda S. 120


BIOESTADISTICA

9. Una fábrica elabora artículos que necesitan de cierto componente que es

adquirido de un proveedor. De los componentes en almacén, usualmente el

5% es defectuoso.

a) Si el fabricante tiene 25 componentes en su almacén ¿Cuál es la

probabilidad de que pueda surtir un pedido de 22 artículos, sin tener que

pedir mas componentes?

b) Sí el fabricante tiene 108 componentes en su almacén ¿Cuál es la

probabilidad de que pueda surtir un pedido de 100 artículos, sin tener que

pedir mas componentes?

c) Si el porcentaje de componentes defectuosos fuera de 8%, ¿cuál es la

probabilidad de que pueda surtir un pedido de 70 artículos, si cuenta con 80

componentes en almacén?

10. Un proceso de fabricar tornillos se comprueba inspeccionando cada hora n

tornillos seleccionados aleatoriamente de los producidos en ese tiempo. Si

uno o más tornillos son defectuosos, el proceso se detiene y se examina

con cuidado. ¿Qué tan grande debe ser n si el fabricante desea que la

probabilidad de que el proceso sea detenido sea alrededor de 95%, cuando

el 10% de los tornillos que son producidos sean defectuosos?

11. Supóngase que el 24% de los individuos de una población tiene el grupo

sanguíneo B. Para una muestra de tamaño 20 extraída de esta población,

encuentre la probabilidad de que

a) Se encuentren exactamente tres personas con el grupo sanguíneo B

b) Se encuentren tres o más personas con la característica de interés.

c) Se encuentren menos de tres

Mg. Beatriz Castañeda S. 121


BIOESTADISTICA

d) Se encuentren exactamente cinco.

12. Suponga que el número de errores en una superficie de grabación

magnética ocurre a una tasa un defecto por cada 105 bits. Un sector de

datos está formado por 4096 bytes (un byte = 8 bits).

a) ¿Cuál es la probabilidad de que el sector tenga más de un error?

b) ¿Cuál es la probabilidad de que de 8 sectores utilizados, máximo 2 sectores

tengan exactamente un error?

13. Los mensajes a una computadora utilizada como servidor lo hacen con una

tasa promedio de 10 mensajes por hora.

a) Determine el intervalo de tiempo necesario para que la probabilidad de

que no llegue ningún mensaje durante ese lapso de tiempo sea 0,90.

b) ¿Cuál es la probabilidad de que se reciba un mínimo de 15 mensajes

durante 2 horas consecutivas de trabajo?

14. El número de fallas de un instrumento de prueba, debido a las partículas

contaminantes de un producto, ocurre en promedio a 0.25 fallas por hora.

a) ¿Cuál es la probabilidad de que el instrumento no falle en una jornada

de 8 horas?

b) Calcule la probabilidad de que en 5 días de trabajo (jornada de 8 horas)

ocurran fallas máximo en 2 de estos días.

15. El tiempo de incapacidad por enfermedad de los empleados de una

compañía en un mes tiene una distribución normal. Si el 40% ha tenido a lo

más 95 horas y sólo el 5% ha tenido tiempo de incapacidad mayor a 133

horas al mes.

Mg. Beatriz Castañeda S. 122


BIOESTADISTICA

¿Cuál es la media y la desviación estándar del tiempo de incapacidad

mensual para los empleados de la compañía?

16. En un estudio realizado en la ciudad de Lima se concluyó, que el consumo

diario de agua por vivienda tiene distribución normal con µ = 120 galones y

σ = 18 galones.

a) ¿Qué porcentaje de viviendas tiene consumo mínimo de 100 galones

diarios?

b) Obtener la cantidad de agua que se consume como máximo en el 95% de

las viviendas.

17. Un fabricante de productos electrónicos espera que el 2% de las unidades

fallen durante el periodo de garantía.

a) Se hace un seguimiento de 18 unidades para determinar su desempeño

durante el tiempo de garantía ¿Cuál es la probabilidad de que a lo más

una de las unidades falle durante el periodo de garantía?

b) Si se hace un seguimiento a 300 unidades, ¿cuál sería el número

máximo de unidades que fallaría en el periodo de garantía con

probabilidad de 99%?

18. Un modelo de cierta marca de lavadora automática se promociona

indicando que su duración promedio es de 4,5 años y que el 98% dura

hasta 7 años sin descomposturas. Asumiendo distribución normal

a) ¿Cuál es la desviación estándar de la duración?

b) Si la garantía cubre el reemplazo de la lavadora hasta los 2 años de

adquirida, ¿qué proporción del total de unidades vendidas será

reemplazada?

Mg. Beatriz Castañeda S. 123


BIOESTADISTICA

c) Si un distribuidor ha recibido un lote de 20 lavadoras, ¿cuál es la

probabilidad de que tenga que pedir a la fábrica el reemplazo de a lo más 2

lavadoras?

d) Si la fábrica despacha un cargamento de 150 lavadoras, ¿cuál es la

probabilidad de que tenga que reemplazar al menos 8 lavadoras?

19. Las remesas de ciertos productos son aprobadas si en una muestra

aleatoria de la misma el porcentaje de defectuosos es de hasta un 5%.

a) Se ha recibido una remesa de 50 productos, en la cual se tiene 10% de

defectuosos, ¿cuál es la probabilidad de que se acepte la remesa si se

extrae una muestra de 20 productos?

b) Si la remesa recibida es de 500 unidades con 8% de productos

defectuosos, ¿cuál es la probabilidad de que se rechace la remesa si se

extrae una muestra de 50 productos?

c) Si la remesa recibida es de 1000 unidades con 5% de productos

defectuosos, ¿cuál es la probabilidad de que se rechace la remesa si se

extrae una muestra de 120 productos?

20. Una compañía textil produce rollos de tela con un promedio de 2.2 defectos

por metro cuadrado.

a) Calcule la probabilidad de que un m2 no presentará más de 4 defectos.

b) Si la tela se vende en cortes de 2m2 cada uno, ¿Cuál es el número

esperado de cortes con a lo más 2 defectos, si se adquiere 25 cortes?

c) ¿Cuál es la probabilidad de tener al menos 10 cortes con máximo 2

defectos, si se compra 50 cortes?

Mg. Beatriz Castañeda S. 124


BIOESTADISTICA

21. En una gran planta manufacturera, los accidentes industriales serios

ocurren en forma aleatoria a razón de 1 por cada 10 días laborables.

a) Calcule la probabilidad de que no ocurra más de un accidente serio en la

planta durante los próximos 30 días laborables.

b) ¿Cuál es la probabilidad de que sólo en 3 de 40 meses, el registro de

accidentes haya superado a 4 accidentes por mes?

22. Un proceso de fabricación de tubos electrónicos produce diariamente 1500

tubos, de los cuales el 4% son defectuosos.

a) Si se elige una muestra de 20 tubos ¿cuál es la probabilidad de que más

del 10% de los tubos sean defectuosos?

b) Si se elige una muestra de 120 tubos, ¿cuál es la probabilidad de que

máximo 7.5% de la muestra sea defectuosa?

23. En general, el mantenimiento preventivo es más barato que el que se lleva

una vez que el equipo falla, debido a que el mantenimiento preventivo se

puede efectuar en períodos de tiempo menos críticos. Una planta utiliza

3000 bombillas cuya duración tiene una distribución normal con una

duración media de 500 horas y una desviación estándar de 50 horas.

Para minimizar el número de bombillas que se funden durante el período de

operación, todas las bombillas se cambian después de un número

determinado de horas, ¿con qué frecuencia se deben cambiar las bombillas

para que no más del 1% de ellas se fundan entre los períodos de

reemplazo?

24. Un determinado antibiótico se envía en cajas de 24 frascos. El farmacéutico

sospecha que la cantidad de antibiótico en algunos frascos es deficiente y

Mg. Beatriz Castañeda S. 125


BIOESTADISTICA

decide analizar el contenido de 5 frascos. Suponga que 6 de los 24 frascos

tienen cantidad deficiente de antibiótico. Obtenga la probabilidad de que a lo

más 2 de los frascos analizados tenga una cantidad deficiente de

antibiótico.

25. Se considera que un proceso de producción está bajo control estadístico si

la porción defectuosa de la producción es menor o igual a 0.10. Para

determinar si el proceso está fuera de control, se han sugerido dos planes:

I. Se juzga el proceso como fuera de control si se encuentran dos o

más unidades defectuosas en una muestra de 25

II. Se juzga que el proceso está fuera de control si se encuentran dos o

más unidades defectuosas en una muestra de 10

Evalué la eficiencia de estos dos planes con respecto a descubrir un proceso

que está produciendo 20% de unidades defectuosas.

26. Un comerciante recibe un envío de 50 televisores portátiles.

a) Para protegerse contra un mal envío, examinará una muestra de 10

televisores y aceptará el lote si observa máximo dos defectuosos. Suponga

que en el lote hay 5 aparatos defectuosos, ¿cuál es la probabilidad de

aceptar el lote?

b) Si recibe un lote de 300 televisores, de los cuales 30 son defectuosos; y

acepta el lote cuando en una muestra de 60 no más de 5 son defectuosos

¿Cuál es la probabilidad de aceptar el lote?

27. Un ingeniero industrial cree que el 30% de todos los accidentes industriales

en su planta se deben a que los empleados no siguen las disposiciones de

seguridad. Si esta suposición es correcta, calcúlese aproximadamente la

Mg. Beatriz Castañeda S. 126


BIOESTADISTICA

probabilidad de que, entre 84 accidentes industriales, de 20 a 30 se deban a

esta causa.

28. Se envía un técnico para hacer la instalación de un sistema de

comunicación especializado a una ciudad, sólo si se han recibido tres o más

pedidos. Suponga que los pedidos tienen una distribución de Poisson con

media 0.25 por semana para una ciudad de 100 000 habitantes.

a) ¿Cuál es la probabilidad de que sea enviado el técnico después de un

periodo de 4 semanas?

b) Suponga que se hacen pedidos de una ciudad que tiene 800 000

habitantes, ¿cuál es la probabilidad de que el técnico sea enviado

después de un periodo de una semana?

29. La duración de un láser semiconductor a potencia constante tiene una

distribución normal con µ = 7000 horas y σ = 600 horas

a) ¿Cuál es la duración, que excede el 90% de todos los laseres?

b) ¿cuál debería ser el tiempo de duración promedio para que el 99% de

los laseres sea mayor de 10000 horas antes de que fallen?

c) Un producto contiene 3 láseres, y el producto falla si cualquiera de los

laseres falla. Suponga que los laseres fallan de manera independiente.

¿cuál es la probabilidad de que el producto dure mas de 8050 horas?

30. El tiempo de vida de los reguladores de voltaje de los automóviles tiene una

distribución exponencial con un tiempo de vida medio de 6 años. Una

persona compra un automóvil que tiene una antigüedad de 6 años, con un

regulador en funcionamiento, y planea tenerlo por espacio de seis años.

Mg. Beatriz Castañeda S. 127


BIOESTADISTICA

a) ¿Cuál es la probabilidad de que el regulador de voltaje falle en el lapso de 6

años?

b) Si el regulador falla después de 3 años de haber efectuado la compra del

automóvil y se remplaza, ¿cuál es el tiempo promedio que transcurriría

hasta que el regulador vuelva a fallar?

31. Supóngase que durante un período de varios años el número promedio de

muertes debidas a cierta enfermedad no contagiosa ha sido de diez. Si el

número de muertes debidas a esta enfermedad sigue la distribución de

Poisson, ¿cuál es la probabilidad de que durante el año que transcurre?

a) Mueran exactamente siete personas debido a la enfermedad?

b) Mueran diez o más personas debido a la enfermedad?

c) Nadie muera debido a la enfermedad?

3.5. Distribución de funciones de variables aleatorias

1. Propiedad del Modelo Normal

Si X1, X2, ...Xn son n variables independientes cada una con distribución

normal N(µi, σi2), entonces

Y = a1 X1 + a2 X2 + ...... + an Xn es normal

Con µy = a1 µ1 + a2 µ2 + ..... + an µn

σ2y = a12 σ12 + a22 σ22 + .... + an2 σn2

Mg. Beatriz Castañeda S. 128


BIOESTADISTICA

2. Teorema del límite Central

Sean x1, x2, …., xn una sucesión de variables aleatorias independientes tales

que tienen la misma distribución f(x), entonces la variable

X = Σ xi

tiene distribución que se aproxima al modelo normal conforme n crece

µx = Σ E(xi) σ2x = Σ V(xi)

X − µx
Luego Z= → N (0,1) conforme n → ∞
σx

Para esta aproximación se asume n grande si n ≥ 30

3. Distribución Ji-Cuadrado

1
f ( x) = x ( k / 2 ) −1 e − x / 2 , para x > 0
2 Γ ( k / 2)
k/2

µ = E( X ) = K ; σ 2 =V ( X ) = 2 K

0 k X2(K)

El parámetro K es denominado grados de libertad, y decimos que X es Ji-

2
cuadrada con k grados de libertad ( X es χ (k) )

Mg. Beatriz Castañeda S. 129


BIOESTADISTICA

Propiedades

a) Si Z es normal N(0, 1) , entonces Z2 tiene distribución Ji-Cuadrado

con un grado de libertad, y denotamos Z2 es χ2(1)

b) Si X es normal N(µ, σ2) , entonces

2
X −µ
Z =2
 es χ (21)
 σ 

c) Si Y1, Y2, …., Yk son variables aleatorias independientes cada una con

distribución Ji- Cuadrado con ki grados de libertad entonces la variable

aleatoria

n
X = Y +Y + .... +Y
1
2
2
2
n
2
es χ 2
(r ) donde r = ∑ k i
1

d) Si X1, X2, …., Xk son variables aleatorias independientes cada una con

distribución normal N(µ , σ2), entonces la variable aleatoria

2
x −µ
k
Y = ∑ i  es χ (k2 )
1  σ 

Uso de tablas

Sea la v.a. Ji-Cuadrado con k = 12 , entonces

P(χ2(12) ≤ 14) = 0.70

0.70
X2(12)
0 14

Mg. Beatriz Castañeda S. 130


BIOESTADISTICA

Dada la probabilidad p = 0.90, ubicamos la cuantila X0.90 = 18.5

0.90
X2(12)
0 18.5

4. Distribución t-Student

Γ[( k + 1) / 2] 1
f ( x) = . , para − ∞ < x < ∞
πk Γ( k / 2) [( x 2 / k ) + 1]( k +1) / 2

k
µ = E( X ) = 0 ; σ 2 =V ( X ) = para k > 2
k−2

X
-t 0 +t

El parámetro K es denominado grados de libertad, y decimos que X es t-

Student con k grados de libertad y denotamos: X es t(k)

Propiedad

Si Z es normal N(0, 1) y Y es Ji-cuadrada con k grados de libertad, y si Z y Y

son variables independientes, entonces la variable

Z
T= es t(k )
Y
k

Mg. Beatriz Castañeda S. 131


BIOESTADISTICA

Uso de tablas

Sea la v.a. t-Student con k = 12 , entonces

P(t(12) ≤ 1.782) = 0.90

0.90

t(12)
0 1.782

Dada la probabilidad p = 0.99, ubicamos la cuantila t0.99 = 2.681

0.98
0.01 0.01
T(12)
-2.681 0 2.681

5. Distribución F
u/ 2
u + v  u 
Γ    x ( u / 2 )−1
 2  v
f ( x) = , para 0 < x < ∞
Γ( u / 2) Γ(v / 2) [( u / v ) x + 1]
( u+ v ) / 2

v 2v 2 ( u + v − 2)
µ = E( X ) = ; σ2 = , para v > 4
v−2 u(v − 2)2 (v − 4)

F(u,v)

Mg. Beatriz Castañeda S. 132


BIOESTADISTICA

Decimos que X tiene distribución F con grados de libertad (u,v) y denotamos:

X es F(u,v)

Propiedad

Sean W y Y variables aleatorias Ji-Cuadrada con grados de libertad, u y v,

W /u
respectivamente, entonces el cociente F= es F( u ,v )
Y /v

Uso de tablas

Sea la v.a. F(3,5) , entonces P(F(3,5) ≤ 0.415) = 0.25

0.25

0.415 F(3,5)

Bibliografía del capítulo

1. WAYNE, D. Bioestadística base para el análisis de las ciencias de la salud.

Limusa Wiley. Méxio 2004.

2. MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas a la

Ingeniería. McGRAW-HILL. México. 1996

3. MEYER, P. L. Probabilidad y Aplicaciones Estadísticas. Addison-Wesley

Iberoamericana S.A., Buenos Aires – Argentina. 1992

4. KAZMIER, L.J. Estadística aplicada a la Administración y Economía.

McGRAW-HILL, México. 1996

Mg. Beatriz Castañeda S. 133


BIOESTADISTICA

CAPITULO 4. DISTRIBUCIONES DEL MUESTREO


Población: Es el conjunto de elementos para los cuales deseamos estudiar

algunas de sus características.

Muestra. Es una parte o subconjunto de la población

Muestra aleatoria. Es una muestra elegida de manera que no esté influencia

por la subjetividad del investigador.

Muestreo aleatorio simple. Consiste en elegir la muestra de manera que cada

elemento de la muestra tiene la misma probabilidad de pertenecer a la muestra

y cada posible muestra tiene la misma probabilidad de ser elegida. Con este

proceso los elementos son elegidos por sorteo del conjunto de elementos que

constituyen la población.

Para una población finita de tamaño N, tenemos que el número de posibles

muestras (k) sería:

K= Nn para muestreo con reposición

N
K =   para muestreo sin reposición
n

El objetivo de elegir muestras es para estudiar en ella las características de

interés y luego sus resultados proyectarlos a la población de la cual ha sido

extraída la muestra, proceso al cual se denomina inferencia estadística. En

este sentido es necesario conocer como se relaciona la muestra con la

población, por lo que estudiaremos las distribuciones del muestreo.

Mg. Beatriz Castañeda S. 134


BIOESTADISTICA

4.1. Variables del muestreo

El proceso de selección de muestras es un experimento aleatorio con el cual se

genera un espacio muestral constituido por todas las posibles muestras que se

pueden formar con los elementos de la población.

Ω = {( x1 ,..., x n )1 , ( x1 ,..., x n ) 2 ,....( x1 ,...., x n ) k }

En este espacio muestral se definen las variables aleatorias

Variable cuantitativa

x=
∑X i
Media muestral
n

S 2
=
∑(x i − x)2
Varianza muestral
n−1

Variable es categórica

La población se clasifica en 2 grupos de elementos para la característica

analizada y cada elemento en la muestra es A o n o A según la característica

bajo observación así definimos.

x
p= proporción de elementos A en la muestra
n

Interesa estudiar la distribución de las variables x , S2 y p a las que

denominamos variables del muestreo

Definiciones:

1) Sea X una población con distribución f(x), media = µ , varianza = σ2,

entonces si al elegir una muestra aleatoria se define la variable

Mg. Beatriz Castañeda S. 135


BIOESTADISTICA

Xi : El elemento i - ésimo de la muestra

Xi tiene la misma distribución que la población, es decir,

f(xi) = f(x) , E(Xi) = E(X) = µ , V(Xi) = V(X) = σ2

2) Muestra aleatoria. Si X es una población con distribución f(x), media = µ ,

varianza = σ2, se define como muestra aleatoria de la población X al

conjunto de variables (X1, X2, . . . , Xn) tales que son independientes entre si

y tienen la misma distribución que la población.

4.2. DISTRIBUCIÓN DE LA MEDIA MUESTRAL

Sea la población formada por las edades de 5 niños

Población:
x1 = 2 años x2 = 4 años x3 = 6 años

x4 = 8 años x5 = 10 años

Entonces: µ = 6 años Media de la población

σ2 = 8 años2 Varianza poblacional

σ = 2,83 años Desviación estándar de la población

De esta población seleccionaremos muestras de tamaño 2

a) Por muestreo con reposición

b) Por muestreo sin reposición

Mg. Beatriz Castañeda S. 136


BIOESTADISTICA

a) Muestreo con reposición:

Tabla 4. Relación de muestras posibles para muestreo con reposición

Muestra Elementos Media Muestra Elementos Media


muestral muestral

1 (x1 , x1)=(2,2) 2 14 (x3 , x4)=(6,8) 7


2 (x1 , x2)=(2,4) 3 15 (x3 , x5)=(6,10) 8
3 (x1 , x3)=(2,6) 4 16 (x4 , x1)=(8,2) 5
4 (x1 , x4)=(2,8) 5 17 (x4 , x2)=(8,4) 6
5 (x1 ,x5)=(2,10) 6 18 (x4 , x3)=(8,6) 7
6 (x2 , x1)=(4,2) 3 19 (x4 , x4)=(8,8) 8
7 (x2 , x2)=(4,4) 4 20 (x4 , x5)=(8,10) 9
8 (x2 , x3)=(4,6) 5 21 (x5 , x1)=(10,2) 6
9 (x2 , x4)=(4,8) 6 22 (x5 , x2)=(10,4) 7
10 (x2 , x5)=(4,10) 7 23 (x5 , x3)=(10,6) 8
11 (x3 , x1)=(6,2) 4 24 (x5 , x4)=(10,8) 9
12 (x3 , x2)=(6,4) 5 25 (x5 , x5)=(10,10) 10
13 (x3 , x3)=(6,6) 6
Fuente: Elaboración propia

µx = 6 σ x2 = 4 σx = 2

Podemos apreciar resultados que no son casuales sino que siguen una
estructura esperada

µx = 6= µ
Las muestras tienen media alrededor de la media de la población

σ2 8
σ =4=
2
x
=
n 2
La dispersión de las medias muestrales depende de la varianza de la población
y del tamaño de muestra.

Mg. Beatriz Castañeda S. 137


BIOESTADISTICA

b) MUESTREO SIN REPOSICIÓN:

Tabla 5. Relación de muestras posibles para muestreo sin reposición

Muestra Elementos Media


muestral
1 (x1, x2)=(2,4) 3
2 (x1, x3)=(2,6) 4
3 (x1, x4)=(2,8) 5
4 (x1, x5)=(2,10) 6
5 (x2, x3)=(4,6) 5
6 (x2, x4)=(4,8) 6
7 (x2, x5)=(4,10) 7
8 (x3, x4)=(6,8) 7
9 (x3, x5)=(6,10) 8
10 (x4, x5)=(8,10) 9
Elaboración propia

µx = 6 σ x2 = 3 σ x = 1.73
Para muestreo sin reposición se obtiene que

µx = 6= µ
Las muestras tienen media alrededor de la media de la población

σ 2  N −n 8 5−2
σ =4=
2
 =  
x
n  N −1  2 4 
La dispersión de las medias muestrales depende de la varianza de la
población, del tamaño de muestra y del tamaño de la población.

En los siguientes gráficos se ilustra la distribución de la media muestral

Mg. Beatriz Castañeda S. 138


BIOESTADISTICA

Gráfico 14
Distribución de las edades de los niños
(Población)

1,2
Número de niños

1
0,8
0,6
0,4
0,2
0
2 4 6 8 10
Edad (años)

Gráfico 15

Distribución de la media muestral


(Muestreo con reposición)
Número de muestras

6
5
4
3
2
1
0
2 3 4 5 6 7 8 9 10
Media muestral

Gráfico 16
Distribución de la media muestral
(Muestreo sin reposición)
Número de muestras

2.5
2
1.5
1
0.5
0
3 4 5 6 7 8 9
Media muestral

Mg. Beatriz Castañeda S. 139


BIOESTADISTICA

Distribución de la media muestral (Resumen)

Dada una población con media = µ y varianza = σ2 .Al tomar muestras de

tamaño “n”

a) La media muestral x tiene distribución Normal con

Media µx = µ
σ2
Varianza σ = 2
x
n
Para todo tamaño de n, si la población es normal

o para n grande si la población no es normal, pero es infinita (n/N ≤ 0.10)

b) La media muestral x tiene distribución Normal con

Media µx = µ
σ2  N −n
Varianza σ 2
=  
x
n  N −1 

Para n grande si la población no es normal, pero es finita (n/N > 0.10)

95%

µ − 1.96 σ x µ µ + 1.96 σ x
x

El 95% de todas las muestras tiene x en este intervalo

Mg. Beatriz Castañeda S. 140


BIOESTADISTICA

Ejemplo 4.1

1) Se ha encontrado que después de un periodo de entrenamiento, el tiempo

medio que requieren ciertas personas impedidas para realizar una tarea

particular es de 25 segundos con una desviación estándar de 5 segundos.

Suponiendo distribución normal para los tiempos, encuentre la probabilidad

de que una muestra de 25 personas proporcione una media:

a) De 26 segundos o más

b) Entre 24 y 27 segundos

c) Mayor de 22 segundos.

Sea X: Tiempo requerido para ejecutar una tarea particular personas


rehabilitadas

X es normal con µ = 25 segundos y σ = 5 segundos

Entonces para una muestra de tamaño n = 25

σ
x es normal con µ x = µ = 25 segundos y σ x = = 1 seg
n

a) P ( x ≥ 26) = P(Z ≥1) = 0.1587

0.1587
x
25 26

Z=1

Mg. Beatriz Castañeda S. 141


BIOESTADISTICA

b) P ( 24 < x < 27 ) = P(-1 < Z < 2)

0.81859
x
24 25 27

Z = -1 Z=2

c) P ( x > 22) = P(Z ≥- 3) = 0.99865

0.99865
x
22

Z=-3

Ejercicios

1) Si las concentraciones de ácido úrico en hombres adultos y normales están

distribuidas en forma casi normal con una media y una desviación estándar

de 5.7 y 1 mg por ciento, respectivamente, encuentre la probabilidad de que

una muestra de tamaño 9 proporcione una media:

a) Mayor de 6

b) Entre 5 y 6

c) Menor de 5.2

Mg. Beatriz Castañeda S. 142


BIOESTADISTICA

2) Para cierto sector grande de una población, en un año determinado,

supóngase que el número medio de días de incapacidad es de 5.4 con una

desviación estándar de 2.8 días. Encuentre la probabilidad de que una

muestra al azar de tamaño 49 de dicha población tenga una media:

a) Mayor de 6 días.

b) Entre 4 y 6 días.

c) Entre 4 ½ y 5 ½ días.

4.3. Distribución de la varianza muestral


2
Dada una población con media = µ y varianza = σ .Al tomar muestras de

tamaño “n”

S 2
=
∑(x i − x)2
la varianza muestral es tal que E(S2) = σ
2

n−1

Si la población es normal, entonces la distribución de una función de S2 tiene

distribución de probabilidad denominada Ji-Cuadrada, así:

( n − 1) S 2
X2 = es χ2(n-1)
σ 2

X2 tiene distribución Ji-cuadrado con parámetro grados de libertad = n-1, este

modelo tiene forma asimétrica con

E(X2) = n -1 y V(X2) = 2(n-1)

X2
0 n-1 ∞

Mg. Beatriz Castañeda S. 143


BIOESTADISTICA

Ejemplo 4.2

Para el ejemplo 4.1, previo, calcular la probabilidad de que la desviación

estándar de la muestra sea mayor de 6 segundos

Como la distribución de los tiempos para la ejecución de la tarea es normal con

media µ = 25 seg y σ = 5 seg

Entonces para una muestra de tamaño n = 25 , tenemos que

2 ( n − 1) S 2
X = es χ2(24)
σ 2

( n − 1) S 2 ( 24) 6 2
Así P(S > 6) = P( > ) = P (χ2(24) > 34.56) = 0.079
σ2 5 2

0.10
p
0.05
χ (224 )
33.2 34.56 36.4

Interpolando obtenemos:

X ……. P
33.2 ….. . 0.10 entonces D ……. d Luego por regla de tres
34.56 …… p -3.20 ….. 0.05 p = 0.07875
36.4 …... 0.05 -1.84……. p – 0.05

Mg. Beatriz Castañeda S. 144


BIOESTADISTICA

4.4. DISTRIBUCION DE LA PROPORCION MUESTRAL

Población N

A Ac
P=T
T N –T N
Proporción de elemen-
tos A en la población

Muestra n

A Ac
p=x
x n-x n
Proporción de elemen-
tos A en la muestra

Donde:

X : Número de elementos A en la muestra

Luego la distribución de p está asociada a la distribución de X, así:

a) Para muestreo con reposición

X es binomial con E(X) = nP y V(X) = nP(1-P)

Como p = X/n, entonces

µp = E(P) = E(X)/n = nP/n = P y σ2p = V(X) = V(X)/n² = P(1-P)/n

b) Para muestreo sin reposición

X es hipergeométrica con E(X) = nP y V(X) = nP(1-P) (N-n)/(N-1)

Mg. Beatriz Castañeda S. 145


BIOESTADISTICA

Como p = X/n, entonces

µp = E(P) = E(X)/n = nP/n = P y

σ2p = V(X) = V(X)/n² = P(1-P) (N-n)


n (N-1)

Estos resultados nos llevan a resumir que

P (1 − P )  N − n 
µp = P y σ2 =  
n  N −1 

Es decir el promedio de la proporción muestral p es la proporción poblacional

P y su varianza está en función del tamaño de muestra (n), de la proporción

poblacional y del tamaño poblacional.

Cuando para una muestra dada la población es relativamente grande, esto es,

la fracción de muestreo no pasa de la décima parte de la población

n
≤ 0.10 , decimos que la población es grande o infinita y aproximamos a 1 el
N

N −n
factor de población finita, ≅1
N −1

Así la varianza de la proporción muestral se simplifica a la expresión:

P (1 − P )
σ 2p =
n
.

Mg. Beatriz Castañeda S. 146


BIOESTADISTICA

Para muestras grandes (n ≥ 30) la distribución de la proporción muestral es


aproximadamente normal

p
P

Para poblaciones finitas p es normal con

P (1 − P )  N − n 
µp = P y σ2 =  
n  N −1 

Para poblaciones infinitas p es normal con

P (1 − P )
µp = P y σ2 =
n

Ejemplo 4.3

1. Si en una población de adultos el 15% están sometidos a algún tipo de

dieta. ¿Cuál es la probabilidad de que en una muestra al azar de tamaño

100, la proporción de los que se encuentran sometidos a una dieta sea:

a) Mayor o igual a 0.20

b) Entre 0.10 y 0.20

c) No mayor de 0.12

Mg. Beatriz Castañeda S. 147


BIOESTADISTICA

Solución:

n= 100 muestra grande, aproximamos a la normal con

µp = 0. 15; σp = 0.0357

a) P(p ≥ 0.20) = P(Z ≥ (0.20-0.15)/0.0357) = P(Z ≥ 1.4) = 0.08076

b) P(0.10 < p < 0.20) = P(-1.4 < Z < 1.4) = 0.83848

c) P(p ≤ 0.12) = P(Z ≤ -0.84) = 0.20045

Ejemplo 4.4

En cierta ciudad se observa que el 20% de las familias tienen por lo menos un

miembro que sufre de algún malestar debido a la contaminación atmosférica.

En una muestra al azar de 150 familias se obtuvo p = 0.27. Si el valor del 20%

es correcto, ¿cuál es la probabilidad de obtener una proporción de 0.27 o más?

Solución:

n= 150 muestra grande, aproximamos a la normal con

µp = 0. 20; σp = 0.033

P(p ≥ 0.27) = P(Z ≥ (0.27-0.20)/0.033) = P(Z ≥ 2.12) = 0.017

Ejercicio.

El 60% de los empleados de una gran empresa faltaron a su trabajo debido a

enfermedad 3 o más días en el último año. Si se extrae una muestra de 120 de

dichos empleados, ¿cuál es la probabilidad de que la proporción de empleados

en la muestra que faltaron a su trabajo 3 o más días debido a enfermedad esté

entre 0.50 y 0.65?

Mg. Beatriz Castañeda S. 148


BIOESTADISTICA

PRACTICA DOMICILIARIA 6

1. Un diario local afirma que el 40% de las familias de la ciudad de Lima se

encuentra en situación de extrema pobreza (ingreso familiar máximo de S/.

500 mensuales) y que sólo el 1% de las familias percibe un ingreso mensual

superior a los S/. 3000 mensuales. Asumiendo distribución normal.

a) ¿Cuáles son el promedio y la desviación estándar del ingreso mensual

por familia?

b) ¿Qué porcentaje de familias se encuentran en situación de pobreza

(ingreso familiar máximo S/. 1000 mensuales)

c) Al tomar una muestra de 40 familias calcule la probabilidad de que:

i) el ingreso promedio sea inferior a S/. 1000,

ii) La desviación estándar de la muestra del ingreso sea inferior a S/.

500.

2. Supóngase que en un proceso estándar para hacer cuerdas, la resistencia a

la ruptura es una variable aleatoria normal con media 45,4 kg y desviación

estándar de 2,27 kg. Supóngase que introducimos un nuevo proceso y que

se implanta siempre y cuando la resistencia a la ruptura media sea mayor

en al menos 10%. Suponiendo que en el nuevo proceso la resistencia a la

ruptura es normal con más o menos la misma desviación estándar que el

proceso antiguo, ¿Qué tamaño de muestra se debe escoger al examinar el

nuevo proceso, si se desea que sólo se tenga el 5% de probabilidad de que

no se adopte el nuevo proceso aún cuando produzca cuerdas con

resistencia a la ruptura media de 50,394 kg?

Mg. Beatriz Castañeda S. 149


BIOESTADISTICA

3. Se supone que el número de un tipo particular de bacteria en un mililitro de

agua potable, se distribuye normalmente con media de 115 y desviación

estándar de 20.

a) Calcule la probabilidad de que en un mililitro de agua obtenida a partir de

una muestra aleatoria, contenga más de 150 bacterias?

b) Se tomaron 80 muestras de un mililitro de agua, ¿Cuál será la

probabilidad que el promedio de bacterias por muestra sea mayor a 120?

4. El volumen que una máquina de llenado automático deposita en latas de

una bebida gaseosa tiene una distribución normal con media 12,4 onzas de

líquido y una desviación estándar de 0,1 onzas de líquido.

a) Si se desechan todas las latas que tienen menos de 12,1 o más de 12,6

onzas de líquido, ¿cuál es la proporción de latas desechadas?

b) Si se toma una muestra de 50 latas,¿cuál es la probabilidad de que

i. Se desechen a lo más 2 latas?

ii. El volumen promedio de las latas de la muestra sea inferior a 12,35

onzas?

iii. La desviación estándar del volumen de las latas de la muestra no

exceda a 0,12 onzas?

5. La fábrica de neumáticos Caucho S.A. produce un tipo de neumáticos que

tiene una vida útil media de 80,000 km y una desviación estándar de 8,000

km. Suponiendo que esta vida útil está distribuida normalmente:

a) ¿Cuál es la probabilidad de que un neumático dure más de 96,000 km?

Mg. Beatriz Castañeda S. 150


BIOESTADISTICA

b) El fabricante garantiza que reemplazará gratis cualquier neumático cuya

duración sea inferior a x. determínese el valor de x de modo que tenga

que reemplazar sólo el 1% de los neumáticos.

c) Si un cliente adquiere 25 neumáticos ¿cuál es la probabilidad de que la

duración promedio de sus neumáticos supere los 85,000 km?

6. Un fabricante de bombas de pozo profundo asegura que a lo sumo el 30%

de sus bombas requieren reparación en los primeros 5 años de operación.

a) Si lo afirmado es verdad ¿Cuál es la probabilidad de que en una

muestra de 50 bombas, a lo más 20 requieran reparación?.

b) ¿Cuál debe ser el tamaño de muestra si se desea tener una probabilidad

del 90% de que la proporción de la muestra diferirá a lo más en 2% con

respecto a lo afirmado por el fabricante?

7. La Dirección de Salud Ambiental de una ciudad afirma que luego de un

programa de control se ha reducido la cantidad de contaminantes

atmosféricos, de manera que a lo más el 5% de los días la contaminación

excede a 200 microorganismos por metro cúbico. Si lo afirmado es verdad

¿Cuál es la probabilidad de que en 80 días de observación, se encuentre

que en más del 10% de los días se haya obtenido más de 200

microorganismos por metro cúbico?

8. Según los archivos el 15% de los trabajadores de las plantas de cemento

son afectados por el sílice, desarrollando neumoconiosis.

a) Si un organismo estatal selecciona, al azar, 16 trabajadores de una

planta de cemento para evaluar su estado de salud ¿cuál es la

Mg. Beatriz Castañeda S. 151


BIOESTADISTICA

probabilidad de que a lo más el 25% de los trabajadores, de la muestra,

haya desarrollado neumoconiosis? La planta tiene 500 trabajadores.

b) ¿Cuál es la probabilidad en a) si se elige una muestra de 40

trabajadores para ser evaluados por el servicio de salud?

9. Para decidir acerca de un proyecto de remodelación de un sector de una

ciudad, el Municipio decide seleccionar una muestra de viviendas de este

sector y si el 40% o más están en mal estado se procederá a la

remodelación en caso contrario esta remodelación no se hará. ¿Cuál es la

probabilidad de que se haga la remodelación si:

a) El sector tiene 50 viviendas de las cuales el 20% está en mal estado y

se elige una muestra de 10 viviendas.

b) El sector tiene 500 viviendas de las cuales el 60% está en mal estado y

se elige una muestra de 20 viviendas.

10. Los precios que las diferentes farmacias cobran por un determinado

antibiótico tienen una distribución aproximadamente normal con una media

de $8,50 y una desviación estándar de $2,00. Si se elige una muestra de 10

farmacias,

a) ¿cuál es la probabilidad de qué el precio medio del antibiótico supere los

$10?

b) ¿cuál es la probabilidad de que la desviación estándar del precio sea

inferior a $2,50.

11. El 75% de los trabajadores expuestos al asbesto desarrollan asbestosis. Si

examinamos a una muestra de 80 trabajadores expuestos al asbesto ¿Cuál

Mg. Beatriz Castañeda S. 152


BIOESTADISTICA

es la probabilidad de que menos de 55 trabajadores en la muestra haya

desarrollado asbestosis?

12. Una red de televisión pretende que su película del lunes por la tarde tenga

regularmente el 36% del total de espectadores. Si esto es cierto, ¿cuál es la

probabilidad de que entre 400 espectadores llamados por teléfono en tardes

de los lunes estén mirando dicha película más de 30%?.

13. De los alumnos de una universidad, el 40% fuma.

a) Se elige una muestra de 6 para conocer sus opiniones sobre el cigarro.

Encuentre la probabilidad de que: i)ninguno de ellos fume, ii) a lo más

dos fumen.

b) Si se elige una muestra de 50 encuentre la probabilidad de que: i) Por lo

menos la mitad de los 50 fume, ii) Sólo 15 fumen.

Bibliografía del capítulo

1. DANIEL, W. BIOESTADÍSTICA, Base para el Análisis de las ciencias de la

Salud”. 4ª Edición, Editorial Limusa S.A. de C.V. Grupo Noriega Editores.

México 2004

2. MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas a la

Ingeniería. McGRAW-HILL. México. 1996

3. MEYER, P. L. Probabilidad y Aplicaciones Estadísticas. Addison-Wesley

Iberoamericana S.A., Buenos Aires – Argentina. 1992

4. KAZMIER, L.J. Estadística aplicada a la Administración y Economía.

McGRAW-HILL, México. 1996

Mg. Beatriz Castañeda S. 153


BIOESTADISTICA

5. MASON, R, LIND, D y MARCHAL, W. Estadística para Administración y

Economía. 10ª Edición, Alfaomega. Mexico 2003.

CAPITULO 5. ESTIMACIÓN

Proceso mediante el cual usando datos de una muestra se obtienen medidas

aproximadas de los parámetros poblacionales.

Estimación puntual

Consiste en proporcionar un único valor como aproximación del parámetro.

Estimación interválica

Consiste en proporcionar un intervalo para el cual se tiene una probabilidad,

llamada confianza, de que el valor del parámetro está incluido en él.

5.1. Estimación Puntual

Para obtener una estimación puntual utilizamos una medida de la muestra a la

cual se denomina estimador y tiene la característica de tomar valores alrededor

del parámetro que se desea estimar

Parámetro Estimador
n

∑x i

Media poblacional: µ µ̂ = x = 1
n
n

∑(x i − x)2
Varianza poblacional : σ2 σˆ 2 = S 2 = 1

n−1

Proporción poblacional; P Pˆ = p

Mg. Beatriz Castañeda S. 154


BIOESTADISTICA

^
Diferencia de medias: µ1- µ2 µ1 − µ 2 = x 1 − x 2
^
Diferencia de proporciones: P1 - P2 P1 − P2 = p1 − p2
5.2. Estimación interválica

Para una estimación interválica, usamos los datos de la muestra para obtener

los límites del intervalo de manera que tengamos una probabilidad (1-α) de

que el intervalo contiene al parámetro poblacional, así por ejemplo

Sabemos que la media muestral toma valores alrededor de la media

poblacional.

95%

µ − 1.96 σ x µ x
µ + 1.96 σ x

El 95% de todas las muestras tiene x en este intervalo

Luego para el 95% de las muestras el intervalo obtenido con límites

σ
L = x ± 1 . 96
n
incluirá entre sus valores el valor de la media poblacional

95%

µ − 1.96 σ x µ x
Mg. Beatriz Castañeda S.
x µ + 1.96 σ x
155

x − 1.96 σ x x x + 1.96 σ x
BIOESTADISTICA

Mg. Beatriz Castañeda S. 156


BIOESTADISTICA

5.2.1. Estimación interválica para la media poblacional (µ)

A) Si la varianza poblacional (σ2) es conocida

Para todo tamaño de muestra de población normal o

Para muestra grande (n ≥ 30) de cualquier población

σ
L = x ± Z 1−α / 2
n

donde Z1-α/2 es la cuantila 1-α/2 de la normal estándar.

B) Si la varianza poblacional (σ2) es desconocida

Para muestras grandes

S
L = x ± Z 1 −α / 2
n

donde Z1-α/2 es la cuantila 1-α/2 de la normal estándar.

C) Si la varianza poblacional (σ2) es desconocida

Para muestra pequeña de población normal

S
L = x ± t 1−α / 2
n
donde t1-α/2 es la cuantila 1-α/2 de la t-Student con n-1 grados de libertad

Ejemplo 5.1.

En un experimento diseñado para estimar el número promedio de latidos por

minuto del corazón para cierta población, se encontró que el número promedio

de latidos por minuto de 49 personas fue de 90 con una desviación estándar

Mg. Beatriz Castañeda S. 157


BIOESTADISTICA

de 10. Obtenga un intervalo de 90% de confianza para estimar el número

promedio de latidos por minuto.

Se desea estimar el promedio ( µ )

Para una muestra de n =49 personas

x = 90 latidos / minuto y S = 10 latidos / minuto

Entonces como la muestra es grande n > 30

S
L = x ± Z 1 −α / 2
n

para una confianza 1 - α = 0.90 , Z0.95 = 1.645

Luego

10 10
Li = 90 − 1.645 = 87.65 y Ls = 90 + 1.645 = 92.35
49 49

Con 90% de confianza se estima que para esta población el promedio de

latidos por minuto es entre 88 y 92 latidos.

Ejemplo 5.2.

Una muestra de 16 niñas de 10 años de edad proporcionó un peso medio de

35,8 kg. y una desviación estándar de 6 kg. Suponiendo que la distribución de

los pesos es normal, encuentre un intervalo de confianza 90% para estimar el

peso medio de las niñas de 10 años.

n = 16 niñas de 10 años ; x = 35,8 kg ; S = 6 kg

Se desea estimar el peso medio de las niñas de 10 años (µ)

Entonces como la muestra es pequeña n < 30 y la población es normal

Mg. Beatriz Castañeda S. 158


BIOESTADISTICA

S
L = x ± t 1−α / 2
n

para una confianza 1 - α = 0.90 , t0.95 (15) = 1.753

6 6
Li = 35.8 − 1.753 = 33.17 y Ls = 35.8 + 1.753 = 38.42
16 16

Con 90% de confianza estimamos que el peso medio de las niñas de 10

años está entre 33,17 kg y 38.42 kg

Error de muestreo y Tamaño de muestra

e= x −µ error de estimación puntual

1- α

.
µ x
µ−E x µ+E
e _
E
Gráfico 17. Error de muestreo y cota superior

Entonces a

σ se denomina precisión o máximo error de estimación


E = Z1−α / 2 puntual con probabilidad o confianza (1- α)
n

Mg. Beatriz Castañeda S. 159


BIOESTADISTICA

De aquí obtenemos que el tamaño de muestra necesario para estimar la

media de una población con una confianza (1 - α) de tener un error

máximo E, es:

Z 12−α / 2 σ 2
n=
E2 , Si la población es grande o infinita

σ  N −n
2
Si la población es finita, entonces E = Z 1−α / 2  
n  N −1 

Z 12−α / 2 σ 2
E2 n0 Z 12−α / 2 σ 2
n= = ; n0 =
Z 12−α / 2 σ 2 n0 E2
1 + 1+
N E2 N

Ejemplo 5.3.

El administrador de un hospital desea estimar el peso de los bebés nacidos en

su hospital, ¿cuán grande debe tomarse una muestra de los registros de

nacimientos si el administrador desea que el error máximo sea de 100 gr. con

una confianza de 99%?. La desviación estándar de los pesos se ha estimado

en 200 gr.

Como deseamos determinar tamaño de muestra (n)

Z 12−α / 2 σ 2
n=
E2

Error : E = 100 gr Desv. Est. : S = 200 gr

Mg. Beatriz Castañeda S. 160


BIOESTADISTICA

Confianza : 1 - α = 0.99 Z0.995 = 2.575

Luego 2.575 ( 200) 2


n= = 26.52 ≅ 27
100 2
Ejemplo 5.4.

El mantenimiento de cuentas de crédito puede resultar demasiado costoso si el

promedio de compra por cuenta baja de cierto nivel. El gerente de un almacén,

con 500 cuentas de crédito, desea estimar el promedio de la cantidad

comprada por mes por sus clientes y acepta un error de no más de $ 2,50 al

95% de confianza. ¿cuántas cuentas debe seleccionar del archivo de la

compañía, sí la desviación estándar de las compras se estima en $15

Z12−α / 2 σ 2
Primero calculamos n0 =
E2

Error : E = $2.50 Desv. Est. : S = $15.00

Confianza : 1 - α = 0.95 Z0.975 = 1.96

Luego 1.96 2 15 2
n0 = = 138.29 ≅ 139
2.5 3

139
Como la población es finita, entonces n= = 109
1 + 139 / 500

Mg. Beatriz Castañeda S. 161


BIOESTADISTICA

5.2.2. Estimación Interválica para la Varianza poblacional

Para muestras de población normal

( n − 1) S 2 2
X2 = es χ (n-1)
σ 2

Luego para una probabilidad 1-α se tiene:

α/2 α/2
1-α
χ2(n-1)
χ α2 / 2 χ 12−α / 2

esto es P ( χ α / 2 < χ (2n−1) < χ 1−α / 2 ) = 1 − α

Al remplazar la expresión Ji-cuadrado en función de la muestra tenemos

 ( n − 1) S 2 
P  χ α / 2 < < χ 1 − α / 2
 = 1 − α
 σ 2

por equivalencia obtenemos la expresión

 ( n − 1) S ² ( n − 1) S ² 
P  <σ 2 <  = 1 − α
 χ 2
α /2 χ 2
1−α / 2 

Así los límites para la estimación interválica de la varianza muestral con

confianza 1-α corresponden

Mg. Beatriz Castañeda S. 162


BIOESTADISTICA

( n − 1) S ² ( n − 1) S ²
Li = Ls =
χ 2
1−α / 2 χα2 / 2

5.2.3. Estimación interválica para la Proporción poblacional (P)

Para muestra grande (n ≥ 30), los límites para la estimación interválica de P se

obtienen como sigue:

a) Para muestras de población grande o infinita

p(1 − p )
L = p ± Z 1 −α / 2
n

b) Para muestras de población finita

p(1 − p )  N − n 
L = p ± Z 1− α / 2  
n  N −1 

Ejemplo 5.5.

Para una muestra de 200 pacientes, con enfermedades pulmonares, tratados

con cierto medicamento se obtuvo que el medicamento fue efectivo en 180 de

ellos. Construya un intervalo de 95% de confianza para estimar la efectividad

del medicamento.

Aquí deseamos estimar

P: Proporción de pacientes en los que el medicamento es efectivo

Es aceptable suponer que la población es grande. Luego si en la muestra

p = 180/200 = 0.90

Mg. Beatriz Castañeda S. 163


BIOESTADISTICA

Asumiendo una confianza 1 - α = 0.95, Z0.975 = 1.96

Entonces obtenemos los límites para la estimación interválica

0.90(0.10) 0.90(0.10)
Li = 0.90 − 1.96 = 0.858 y Ls = 0.90 + 1.96 = 0.942
200 200
Así concluimos que: con 95% de confianza se estima que el porcentaje de

pacientes en los que el medicamento sería efectivo es entre el 86% y 94%.

Ejemplo 5.6.

Una muestra de tamaño 400 seleccionada de entre los 2000 alumnos que

habían consultado el servicio de salud de una universidad el año pasado indicó

que 80 tenían enfermedad de naturaleza psicosomática.

a) ¿Obtenga una estimación interválica con 95% de confianza para el

porcentaje de alumnos que tenían enfermedad psicosomática.

b) Proporcione una estimación, con 95% de confianza, para el número de

alumnos que consultaron el servicio de salud y tenían enfermedad

psicosomática.

De la muestra: n = 400 p = 80/400 = 0.20

a) Se desea estimar el porcentaje de alumnos con enfermedad psicosomática

Como n/N = 400/2000 = 0.20 ; asumimos población finita

p(1 − p )  N − n 
Luego L = p ± Z1−α / 2  
n  N −1 

Si (1-α) = 0.95 , Z0.975 = 1.96

Mg. Beatriz Castañeda S. 164


BIOESTADISTICA

0.2( 0.8)  1600 


Li = 0.20 − 1.96   = 0.165
400  1999 

0.2( 0.8)  1600 


Ls = 0.20 − 1.96   = 0.235
400  1999 

A partir de esta muestra se estima con 95% de confianza que el porcentaje

de alumnos consultantes que tuvieron enfermedad psicosomática fue entre

el 16,5% y el 23,5%

b) Se desea estimar el número de alumnos con enfermedad psicosomática

Como la proporción poblacional P = T/N T = NP

Luego la estimación puntual

Tˆ = N Pˆ = Np = 2000x0.20 = 400 alumnos

Para la estimación interválica del total, los límites se obtienen

L (T) = N L(P)

Li(T) = 2000x0.165 = 330

Ls(T) = 2000x0.235 = 470

De los 2000 alumnos que consultaron el servicio de salud, con 95% de

confianza estimamos entre 330 y 470 tuvieron enfermedad de naturaleza

psicosomática .

Mg. Beatriz Castañeda S. 165


BIOESTADISTICA

Error de muestreo y Tamaño de muestra

e= p−P error de estimación puntual

1- α

. p
P-E P p P+E

e _
E

Gráfico 18. Error de muestreo al estimar la proporción poblacional

Entonces para poblaciones grandes o infinitas

P (1 − P se denomina precisión o máximo error de


E = Z 1−α / 2 estimación puntual con probabilidad o confianza
n
(1- α)

De aquí obtenemos que el tamaño de muestra necesario para estimar la media

de una población con una confianza (1 - α) de tener un error máximo E, es:

Z 12−α / 2 P (1 − P )
n= , Si la población es grande o infinita
E2

Si la población es finita, entonces


P (1 − P )  N − n 
E = Z 1−α /2  
n  N −1

Mg. Beatriz Castañeda S. 166


BIOESTADISTICA

Z 12−α / 2 P (1 − P )
E 2 n0 Z 12−α / 2 P (1 − P )
n= = ; n0 =
Z 12−α / 2 P (1 − P n0 E2
1 + 1+
N E 2
N

Ejemplo 5.7.

El Director de un hospital desea saber que porcentaje de los pacientes dados

de alta están inconformes con los cuidados recibidos durante su

hospitalización.

a) ¿Cuán grande debe ser la muestra si se piensa que aproximadamente

el 25% de pacientes está inconforme y se desea tener una precisión del

5% al 95% de confianza?

b) ¿Cuán grande debe ser la muestra si se considera que el error máximo

deseado es de 0.05 para una confianza del 95% y no se dispone de

alguna otra información.

Deseamos determinar el tamaño de muestra para estimar la proporción de

pacientes inconformes (P)

Z12−α / 2 P (1 − P )
a) Si asumimos población grande n=
E2

como se sospecha que P ≈ 0.25

entonces para E = 0.05 y 1-α = 0.95 ( Z0.975 = 1.96)

Mg. Beatriz Castañeda S. 167


BIOESTADISTICA

1.96 2 (0.25)(0.75)
n= = 288
0.05 2

b) Para la determinación del tamaño de muestra como no tenemos referencia

de P, consideremos que fijado E y la confianza (1-α) la expresión para n es

una función cuadrática de P y toma su valor máximo para P =0.50

Así calculamos n asumiendo


n
P =0.50,

lo que proporcionará la muestra


más grande que garantice una
precisión E con confianza 1- α

P 1.96 2 (0.50)(0.50)
0 0.50 1 n= = 384
0.05 2

5.2.4. Estimación interválica para la diferencia de medias

A) Si las varianza poblacionales σ12 y σ22 son conocidas

Para muestras de cualquier tamaño de poblaciones normales o para

muestras grandes (n1 ≥ 30 y n2 ≥ 30) en general

L = ( x 1 − x 2 ) ± Z1−α / 2 σ x1 − x 2

σ 12 σ 22
donde σ x1 − x 2
= +
n1 n2

Mg. Beatriz Castañeda S. 168


BIOESTADISTICA

B) Si las varianza poblacionales son desconocidas

Para muestras grandes (n1 ≥ 30 y n2 ≥ 30)

L = ( x 1 − x 2 ) ± Z 1−α / 2 S x1 − x 2

s 12 s 22
donde S x1 − x 2 = +
n1 n 2

C) Si las varianzas poblacionales son desconocidas, pero son semejantes

(σ12 = σ22). Para muestras pequeñas (n1 < 30 y n2 <30) de poblaciones

normales

L = ( x 1 − x 2 ) ± t1−α / 2 S x1 − x 2

donde

( n1 − 1) S12 + ( n2 − 1) S 22 1 1 1 1
S x1 − x 2 = + = Sc +
n1 + n2 − 2 n1 n2 n1 n2

t1-α/2 es la cuantila 1- α/2 de la t-Student con n1 + n2 -2 grados de libertad

(t(n1+n2 -2))

Ejemplo 5.8.

En grupo de investigadores del cáncer de mama reunió los siguientes datos en

cuanto al tamaño de los tumores:

Mg. Beatriz Castañeda S. 169


BIOESTADISTICA

Tipo de tumor n x (cm) S(cm)


A 41 3.85 1.95
B 36 2.80 1.70

Construya un intervalo de confianza del 95% para la diferencia entre las

dimensiones del promedio de estos dos tipos de tumor. Interprete.

Como las muestras son grandes, entonces

L = ( x 1 − x 2 ) ± Z 1−α / 2 S x1 − x 2
Luego obtenemos

s12 s22 1.95 2 1.70 2


S x1 − x 2 = + = + = 0.416
n1 n2 41 36

Como 1 - α = 0.95, entonces Z0.975 = 1.96

Así L = (3.85 – 2.80) ± 1.96 (0.416) = 1.05 ± 0.815

Li = 0.235 cm Ls = 1.865 cm

Con 95% de confianza estimamos que la dimensión promedio del tumor tipo

A es mayor que la del tipo B entre 0.24 cm y 1.87 cm

Los tumores de mama tipo A en promedio tienen mayor tamaño que los

tumores tipo B

Ejemplo 5.9.

Con el objeto de comparar dos programas de capacitación de obreros en un

trabajo de precisión, se incluyeron 20 obreros en un experimento. De éstos, se

tomaron 10 al azar y fueron entrenados con el método 1, el resto fue

capacitado con el método 2. Después de completar sus respectivos cursos de

Mg. Beatriz Castañeda S. 170


BIOESTADISTICA

capacitación, los obreros fueron sometidos a una prueba de tiempo y ejecución

que expresaba la velocidad en el tiempo (minutos) de ejecución de dicho

trabajo. De obtuvieron los siguientes datos:

Método 1: 15 20 11 23 16 21 18 16 27 24

Método 2: 23 31 13 19 23 17 28 26 25 28

Suponiendo poblaciones con distribución normal y varianzas iguales,

construya un intervalo de 95% de confianza para estimar la diferencia entre

las medias de ejecución entre los dos métodos. Interprete resultados.

De las muestras obtenemos

Método n x (min) S (min)


1 10 19.1 4.8
2 10 22.3 5.9

Luego como las muestras son pequeñas y las poblaciones son normales,

asumimos que las varianzas no difieren significativamente por lo que

obtenemos los límites como:

L = ( x 1 − x 2 ) ± t1−α / 2 S x1 − x 2
Primero calculamos

( n1 − 1) S 12 + ( n2 − 1) S 22 1 1 9(4.8 2 ) + 9(5.9) 2 1 1
S x1 − x 2 = + = + = 2.405
n1 + n2 − 2 n1 n2 10 + 10 − 2 10 10

Para la confianza 0.95 , obtenemos t0.975(18) = 2.101

Luego L = (19.1 – 22.3) ± 2.101 (2.405) = - 3.2 ± 5.05

Mg. Beatriz Castañeda S. 171


BIOESTADISTICA

Li = - 8.25 Ls = 1.85

Este resultado nos indica que al 95% de confianza no podemos concluir que los

obreros capacitados con el método 1 sean en promedio más veloces que los

capacitados con el método, pues el intervalo incluye al 0, y por lo tanto no haya

diferencia entre las medias.

Ejercicio

Ocho personas obesas se pusieron a dieta durante un mes. Se observó

mediante análisis clínicos la cantidad de triglicéridos al comienzo y al final del

mes.

Persona : A B C D E F G H

Triglicérido inicial: 310 295 287 305 270 323 277 299

Triglicérido final : 263 251 249 259 233 267 242 265

Estime la reducción de triglicéridos, debido a la dieta. Utilice un intervalo de

confianza del 95%. Interprete sus resultados. ¿Qué suposiciones deben

hacerse?

5.2.5. Estimación interválica para la diferencia de proporciones


(P1 - P2)

Para muestras grandes (n1 ≥ 30 y n2 ( 30) en las que

p1: la proporción en la muestra 1 p2: la proporción en la muestra 2

Mg. Beatriz Castañeda S. 172


BIOESTADISTICA

Los límites para la estimación interválica de la diferencia de proporciones

poblacionales las obtenemos como:

L = ( p1 − p2 ) ± Z 1−α / 2 S p1− p 2
donde

p1 (1 − p1 ) p2 (1 − p2 )
S p 1− p 2 = +
n1 n2

Ejemplo 5.10.

En un estudio diseñado para conocer los efectos secundarios de dos

medicamentos, se encontró que de los 50 animales a los que se les dio el

medicamento A, 11 de ellos mostraron efectos secundarios no deseables;

mientras que de los 50 animales que recibieron el medicamento B sólo 8

mostraron efectos secundarios no deseables. Obtenga un intervalo de

confianza 0.95 para la diferencia entre las proporciones.

De la muestras obtenemos: p1 = 11/50 = 0.22 y p2 = 8/50 = 0.16

0.22(1 − 0.22) 0.16(1 − 0.16)


S p 1− p 2 = + = 0.078
50 50

Para el 95% de confianza

L = (0.22-0.16) ± 1.96(0.078) = 0.06 ± 0.15 ; Li = –0.09 Ls = 0.21

Mg. Beatriz Castañeda S. 173


BIOESTADISTICA

Con el medicamento A obtuvo mayor proporción de casos con efectos

secundarios no deseables que con el medicamento B, pero al 95% de

confianza esta diferencia no es significativa.

PRACTICA DOMICILIARIA 7

1. Una gran tienda desea estimar con una confianza de 98% y un error

máximo de 5 soles la verdadera media de las compras mensuales de sus

clientes de cuenta corriente. ¿cuál debería ser el tamaño de muestra si se

sabe que la desviación estándar es de 15 soles?

2. ¿Cuál es el tamaño de muestra que se requiere para estimar la proporción

de días en los que la contaminación atmosférica excede los 200

microorganismos por metro cúbico, si se desea tener un error máximo de

6% con una confianza de 95%? No se tiene información previa de la

proporción.

3. El mantenimiento de cuentas de crédito puede resultar demasiado costoso

sí el promedio de compra por cuenta baja de cierto nivel. El gerente de un

almacén desea estimar el promedio de cantidad comprada por mes por sus

clientes que usan cuenta de crédito, con un error de no más de $ 2,50 y una

confianza de 95%. ¿cuántas cuentas se deben seleccionar del archivo de la

compañía si la desviación estándar de las cuentas de crédito es de $ 7,50

4. En una conferencia de prensa, una alta autoridad anuncia que el 90% de los

habitantes adultos de un país están a favor de cierto proyecto económico

del Gobierno. Una muestra aleatoria de 625 adultos indica que 55% están

Mg. Beatriz Castañeda S. 174


BIOESTADISTICA

en favor del proyecto. Con 95% de confianza estime la proporción de

ciudadanos adultos que están a favor del proyecto. Interprete el resultado

con respecto al anuncio de la autoridad.

5. Se ha medido el contenido de nicotina de 36 cigarrillos de una determinada

marca. A continuación se resumen los resultados obtenidos:

x : Contenido de nicotina de un cigarrillo, medido en miligramos

Σx = 756 miligramos

Σ(x - x)² = 315

Obténgase un intervalo de confianza 0.95 para estimar el contenido

promedio de nicotina de los cigarrillos de esta marca.

6. Se seleccionó una muestra aleatoria de 30 docentes de entre los profesores

de una USE con el objeto de estimar la experiencia docente media de ellos.

Los resultados obtenidos en la muestra (medidos en años) fueron:

3, 4, 4, 6, 2, 3, 4, 6, 2, 4, 6, 4, 3, 4, 4, 7, 3, 4, 5, 6, 1, 6, 4,

5, 4, 3, 2, 4, 3, 4

Utilizando la información anterior, obténgase un intervalo de confianza 0,99

para estimar la experiencia docente media de los profesores de la USE.

7. Se seleccionó una muestra de 100 familias de una comunidad de 5000

familias. La muestra dio un ingreso familiar anual medio de S/. 15 000 y una

desviación estándar de S/. 200. Obténgase un intervalo de confianza 0,90

para el ingreso total anual de la comunidad.

8. Para estimar la cantidad total de depósitos a la vista, un banco comercial

selecciona una muestra aleatoria de 400 cuentas. La muestra da una media

de $5000 y una desviación estándar de $ 1000. Suponiendo que el banco

Mg. Beatriz Castañeda S. 175


BIOESTADISTICA

tiene 12000 cuentas a la vista, obténgase un intervalo de confianza 0,99

para la cantidad total en depósitos a la vista en el banco.

9. Una muestra aleatoria de 100 alumnos varones de un colegio estatal indica

que 15 alumnos practican deportes en forma activa.

a) Obténgase un intervalo de confianza 0.90 para estimar la proporción de

alumnos varones del colegio que practican un deporte activamente.

b) Si el colegio tiene 1200 alumnos varones, para la misma confianza

estime el número de alumnos que practican deportes en forma activa.

10.El Director de Asuntos Estudiantiles de una Universidad está considerando

una nueva política en relación con las residencias estudiantiles. Antes de

tomar su decisión final, desea seleccionar una muestra aleatoria de

estudiantes para estimar la proporción de los que están a favor de la nueva

política. ¿qué tamaño muestral se requiere para asegurar que el riesgo de

sobrepasar un error de 0,10 es sólo 0,05?. La universidad tiene 8 000

estudiantes.

11.Una muestra de tamaño 400 seleccionada de los alumnos que habían

consultado el servicio de salud de una universidad durante el año pasado

indicó que 80 tenían enfermedad de naturaleza psicosomática.

a) ¿Con qué grado de confianza puede afirmarse que de 16 a 24 por ciento

de todos los alumnos que consultaron el servicio de salud el año pasado

tenían una enfermedad psicosomática?

b) Supóngase que 2000 alumnos consultaron el servicio de salud el año

pasado. Con la información de la muestra obtenga una estimación

Mg. Beatriz Castañeda S. 176


BIOESTADISTICA

interválica para el número de estos alumnos que tenían una enfermedad

de naturaleza psicosomática

12.Doscientos cincuenta y seis pacientes que sufren de una cierta enfermedad

fueron tratados con un nuevo medicamento. Este medicamento curó a 128

pacientes ¿con qué grado de confianza puede afirmarse que la efectividad

del medicamento está entre 45% y 55%.

13.Suponga que la concentración de oxigeno disuelto OD para una corriente de

una planta industrial en un punto A se distribuye normalmente con varianza

0.5 (mg/lt)² pero con media desconocida. Si se toma una muestra de tamaño

n = 10, que arroja los siguientes resultados en mg/lt: 1.8, 2.0, 2.1, 1.7, 1.2,

2.3, 2.5, 2.9, 1.6, 2.2.

a) Estime la media con un intervalo de 99.5% de confianza. Interprete su

significado. Con dicho nivel de confianza que puede decirse de la

magnitud del error.

b) Si el ingeniero no está satisfecho con la longitud del intervalo calculado

en a), y desea reducir su longitud en un 10% conservando el nivel de

confianza del 99.5%, en cuanto debe aumentar el tamaño de la muestra?

Bibliografía del capítulo

1. WAYNE, D. Bioestadística base para el análisis de las ciencias de la salud.

Limusa Wiley. Méxio 2004; pp 658-65.

2. MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas a la

Ingeniería. McGRAW-HILL. México. 1996

Mg. Beatriz Castañeda S. 177


BIOESTADISTICA

3. MASON, R., LIND, D. y MARCHAL, W. Estadística para Administración y

Economía. Alfaomega, Colombia. 2003

4. PAGANO, M y GAUVREAU, K. Fundamentos de Bioestadística. Thomson

Learning. México, 2000.

Mg. Beatriz Castañeda S. 178


BIOESTADISTICA

CAPITULO 6. PRUEBAS DE HIPÓTESIS

6.1. Principios básicos de prueba de hipótesis

6.1.1. Definición

Una prueba de hipótesis es un procedimiento estadístico con el cual, utilizando

la información que proporciona una o más muestras aleatorias, tomamos la

decisión de rechazar o no rechazar un supuesto (hipótesis) acerca de la

población o poblaciones de donde se ha elegido la muestra, asumiendo un

riesgo (probabilidad de error) de equivocarnos al tomar la decisión.

Para realizar el proceso de prueba de hipótesis es necesario que primero se

considere de manera clara lo que se desea probar y expresarlo de manera

escrita, lo cual luego debe ser indicado en términos de medidas estadísticas de

la variable o característica de la población bajo estudio.

6.1.2.Elementos de una prueba de hipótesis

1) Hipótesis nula y alterna

Al realizar el proceso de prueba de hipótesis los supuestos deben ser

formulados de una manera adecuada para poder aplicar los procedimientos

estadísticos; por ello se debe plantear dos hipótesis, denominadas hipótesis

nula (Ho) e hipótesis alterna (H1)

Mg. Beatriz Castañeda S. 179


BIOESTADISTICA

Hipótesis nula (Ho). Es la hipótesis que el procedimiento estadístico somete a

prueba, se formula como un supuesto de no diferencia o igualdad para el valor

poblacional, o como un supuesto de no asociación entre dos variables

Ejemplo 6.1.

El porcentaje de pacientes que refiere efectos H0: P = 0.05


adversos al ingerir ciprofloxacina es de 5%

El nivel promedio de glicemia en pacientes H0: µ = 210 mg%


con diabetes tipo II del distrito de Catacaos
es 210 mg %

La prevalencia de parasitosis intestinal en los


niños preescolares del asentamiento humano H 0: P 1 = P 2
la Esperanza es igual a la de los niños pre-
escolares del distrito de San Isidro.

Hipótesis alterna (H1)

Esta hipótesis sirve para contrastar la hipótesis nula, usualmente, se formula

como un supuesto de diferencia, lo cual incluye un amplio rango de valores,

desde una diferencia pequeña hasta una diferencia relativamente grande

Ejemplo 6.2.

El porcentaje de pacientes que refiere efectos H1: P < 0.05


adversos al ingerir ciprofloxacina es menor
del 5%”

El nivel promedio de glicemia en pacientes H1: µ > 210 mg %


con diabetes tipo II del distrito de Catacaos
es mayor de 210 mg %

La prevalencia de parasitosis intestinal en los

Mg. Beatriz Castañeda S. 180


BIOESTADISTICA

niños pre-escolares del asentamiento humano H1: P1 > P2


la Esperanza es mayor que la de los niños pre-
escolares del distrito de San Isidro.

Los supuestos planteados en las investigaciones nos llevan a formular

hipótesis de diferencia, y nosotros para el manejo estadístico lo

indicaremos como la hipótesis alterna (H1) y a la complementaria que

lleve la igualdad la indicaremos como hipótesis nula (H0).

Ejemplo 6.3

Se ha desarrollado un nuevo medicamento y deseamos probar que este es

más eficaz que uno antiguo porque suponemos que el porcentaje de pacientes

curados es significativamente mayor con el medicamento nuevo que con el

antiguo.

Entonces:

H 0: El medicamento nuevo es igual o H0: Pnuevo ≤ Pantiguo


menos eficaz que el antiguo

H 1: El medicamento nuevo es más H1: Pnuevo > Pantiguo


eficaz que el antiguo

Planteamiento de una hipótesis

Para considerar el planteamiento de las hipótesis tomaremos como ejemplo el

planteamiento de hipótesis para la media poblacional.

Sea µ el valor verdadero de la media de una población o universo y k un valor

específico; la hipótesis que se va a contrastar tomará una de las 3 formas

siguientes:

Mg. Beatriz Castañeda S. 181


BIOESTADISTICA

1. µ = k, significa que el valor verdadero de la media poblacional es igual a

un valor específico k

2. µ ≥ k, significa que el valor verdadero de la media poblacional es mayor

o igual a un valor específico k

3. µ ≤ k, significa que el valor verdadero de la media poblacional es menor

o igual a un valor específico k.

En cada una de las proposiciones anteriores, la hipótesis que se habrá de

comprobar es la hipótesis nula (H0). Esta hipótesis nula, también llamada de

nulidad, afirma que no existe diferencia significativa entre un estado actual

general del universo con uno particular, como se ha establecido en la

hipótesis.

Si se rechaza la hipótesis nula (H0), esto implica que se acepta alguna

descripción alterna del estado del universo. Siempre existirá una alternativa,

llamada hipótesis alterna o alternativa (H1), asociada con cualquier hipótesis

nula propuesta.

La aceptación o rechazo de una hipótesis implica el rechazo o aceptación

respectiva de la otra alternativa. O sea que estos dos eventos son mutuamente

excluyentes y completamente exhaustivos.

Las formas en las cuales se pueden presentar tanto las hipótesis nulas como

las alternativas son las siguientes:

Mg. Beatriz Castañeda S. 182


BIOESTADISTICA

Hipótesis nula (H0) Hipótesis alternativa (H1)

1. H0: µ = k H 1: µ ≠ k (alternativa bilateral)

2. H0: µ ≥ k H 1: µ < k (alternativa unilateral)

3. H0: µ ≤ k H 1: µ > k (alternativa unilateral)

2) Decisión

Al realizar el proceso de prueba de hipótesis y utilizar la información que

proporciona una muestra, ésta nos puede indicar una de dos posibles

decisiones: rechazar o no rechazar la hipótesis nula (H0).

Rechazar H0 a favor de H1. Significa que la diferencia encontrada en la

muestra respecto a lo planteado en H0 es tan grande que ya no es probable

que se deba al azar del muestreo, sino a que en la población existe esta

diferencia, es decir se cumple H1.

No rechazar H0 . Significa que la diferencia encontrada en la muestra con

respecto a lo planteado en H0 es pequeña y puede deberse al azar del

muestreo, por ello se dice que no hay razones suficientes para rechazar la

hipótesis nula.

3) Estadística de la prueba

Una vez formuladas las hipótesis se debe considerar la utilización de la

muestra para la comprobación de éstas, es decir, el uso de una medida de la

Mg. Beatriz Castañeda S. 183


BIOESTADISTICA

muestra cuyos valores esperados se encuentren relacionados con lo expresado

en las hipótesis de manera que nos pueda servir como un indicador de la

concordancia de la muestra con una de las hipótesis planteadas.

Ejemplo 6.4

Se piensa que la vitamina C puede disminuir los niveles del colesterol sérico, y

que esta disminución en promedio es mayor de 50 mg. por 100 ml. Para

confirmar se evalúa una muestra de 40 personas (con niveles elevados de

colesterol) antes y después de un tratamiento de un mes bajo un régimen de

500 mg. diarios de vitamina C.

Entonces las hipótesis estadísticas son formuladas de la siguiente manera:

H0: µ ≤ 50 H1: µ > 50

Estas hipótesis son referidas al valor de la disminución promedio (µ), por lo que

la medida de la muestra relacionada con estas hipótesis es la media muestral

( x ), ya que la media muestral se distribuye alrededor de la media poblacional,

según el modelo normal.

De manera que si la hipótesis nula (H0) fuera cierta, esperaríamos que la media

de la muestra, x , tome valor alrededor de 50 o menos; en cambio, si la

Mg. Beatriz Castañeda S. 184


BIOESTADISTICA

hipótesis alterna (H1) fuera la correcta, entonces esperaríamos que x tome

valor alrededor de un valor mayor que 50; gráficamente tenemos:

H0 H1

  x
µ ≤ 50 µ > 50

Así para la toma de decisión se considera una medida de la muestra, que esté

muy relacionada con las hipótesis planteadas, pero como los valores a

observar para la muestra están sujetos al azar del muestreo, entonces las

decisiones se establecen sobre la base del comportamiento probabilístico de la

medida calculada a partir de la muestra, por ello la Estadística ha construido

medidas, usando los datos de la muestra, para las cuales se pueda utilizar los

modelos teóricos de probabilidad con los que se pueda realizar el proceso de

comparación.

Ejemplo 6.5

Siguiendo con el ejemplo anterior, tenemos que:

H0: µ ≤ 50 H1: µ > 50

La Estadística propone calcular la medida estandarizada de la media de la

muestra en lugar de usar directamente a la media muestral.

Mg. Beatriz Castañeda S. 185


BIOESTADISTICA

x − µ0
Z= ; cuya distribuci ón es N (0,1) si H 0 es cierta
S
n

Para nuestro ejemplo, como µ0 = 50, al reemplazar en la expresión Z

obtenemos:

x − 50
Z= ; cuya distribución es N(0,1) si H 0 es cierta
S
n

De manera que si la hipótesis nula (H0) fuera cierta, esperaríamos que Z tome

un valor alrededor de 0 ó menor que 0; en cambio, si la hipótesis alterna (H1)

fuera la correcta, entonces esperaríamos que Z tome valor alrededor de un

valor mayor que 0; gráficamente tenemos:

  Z
0

Si x ≈ 50 Si x > 50

Cómo se aprecia en la expresión Z para la estadística de la prueba, ésta se ha

construido en función del valor planteado en H0; por lo que la prueba, como ya

se dijo anteriormente, ha sido diseñada para comprobar la hipótesis nula.

Según las hipótesis formuladas, y teniendo en cuenta los requisitos estadísticos

que se deben cumplir (tamaño de muestra, distribución probabilística de la

Mg. Beatriz Castañeda S. 186


BIOESTADISTICA

población, relación de independencia entre los grupos, etc), La Estadística ha

diseñado expresiones diversas cuya distribución probabilística se asocia a un

modelo de probabilidad, por lo que a las pruebas se les denomina con el

nombre del modelo que sigue o se aproxima a tener la estadística de la prueba.

Ejemplo 6.6

1. Prueba Z para la media


H0 : µ = µ0 H0 : µ ≠ µ0

x − µ0
Estadística de la prueba: Z=
S
n

Esta prueba es aplicable sólo si la muestra es grande (n ≥ 30)

2. Prueba T para la media

H0 : µ = µ0 H0 : µ ≠ µ0

x − µ0
Estadística de la prueba: T =
S
n

Esta prueba es aplicable para muestras pequeñas (n < 30) de población


normal.

3. Prueba Z para la proporción

H0 : P = P0 H1 : P ≠ P 0

p − P0
Estadística de la prueba: Z=
P0 (1− P0 )
n

Esta prueba es aplicable sólo si la muestra es grande (n ≥ 30)

Mg. Beatriz Castañeda S. 187


BIOESTADISTICA

4) Región crítica y región de no rechazo

Al elegir muestras aleatorias de tamaño n de una población, debido al azar del

muestreo, algunas muestras tendrán medidas que serán concordantes o

favorecerán a la hipótesis nula (H0) y otras serán concordantes o favorecerán a

la hipótesis alterna (H1). Así para la toma de decisión se considera una medida

de la muestra, que esté muy relacionada con las hipótesis planteadas, y a su

recorrido esperado se divide en dos regiones excluyentes y complementarias

llamadas “Región crítica o de rechazo” y “Región de no rechazo”.

Ejemplo 6.7

Para probar las hipótesis

H0: µ ≤ 50 H1: µ > 50

Si consideramos como estadística para la prueba a la cantidad Z

x − 50
Z =
S
n

y eligiéramos a 2 como el punto de división de su recorrido esperado


tendríamos

  Z
0 2

Si x ≈ 50 Si x > 50

Región de no Rechazo Región de Rechazo (RC)

Mg. Beatriz Castañeda S. 188


BIOESTADISTICA

Luego como se aprecia en la figura hemos dividido al recorrido de Z en dos

regiones, de manera que si la media de la muestra x es mayor que 50 y su

valor estandarizado (Z) es mayor que 2, rechazamos H0 a favor de H1, pues el

resultado de la muestra es concordante con H1; en cambio si x es cercano a

50 y su valor estandarizado (Z) es menor que 2, nosotros no podemos rechazar

H0 , pues la diferencia encontrada es pequeña (no significativa) y podría

deberse al azar del muestreo.

Región de no rechazo: Conjunto de resultados muestrales que son

concordantes o favorecen a la hipótesis nula, indicando que la diferencia

encontrada en la muestra con respecto a lo planteado en H0 es pequeña (no

significativa) y puede deberse al azar del muestreo.

Región crítica o región de rechazo (R.C.): Conjunto de resultados muestrales

que son concordantes o favorecen a la hipótesis alterna, indicando que la

diferencia encontrada en la muestra con respecto a lo planteado en H0 es

grande (significativa) y ya no es posible que se deba al azar del muestreo sino

a que realmente hay diferencias.

5) Tipos de error

Al tomar una decisión sobre la base de la información que proporciona una

muestra, como desconocemos la situación real de la población, corremos el

riesgo de equivocarnos. Así al no rechazar H0 cuando esta es verdadera no

cometemos error, en cambio si rechazamos H0 cuando es verdadera

Mg. Beatriz Castañeda S. 189


BIOESTADISTICA

cometemos un error. De manera similar si H0 es falsa (H1 es verdadera) y la

muestra nos indica no rechazar H0 cometemos un error en cambio si la muestra

nos indicara rechazar no cometemos error.

Población

H0 H0 H1
Verdadera Falsa verdadera

La muestra indica
No rechazar H0 Rechazar H0 No rechazar H0 Rechazar H0
(no error) (error tipo I) (error tipo II) (no error)

Gráfico 19. Tipos de error en la toma de decisión

Luego en el proceso de prueba de hipótesis estamos expuestos a cometer 2

errores posibles

Error Tipo I = Rechazar H0 cuando H0 es verdadera

Error Tipo II = No rechazar H0 cuando H0 es falsa, es decir, H1 es


verdadera

6) Nivel de significancia y Potencia de la Prueba

En el proceso de toma de decisión se tiene por objeto que las probabilidades

de cometer error sean pequeñas; así se denomina α a la probabilidad de

cometer error Tipo I y β a la probabilidad de cometer error tipo II, es decir,

Mg. Beatriz Castañeda S. 190


BIOESTADISTICA

α = P(error tipo I) = P(Rechazar H0 cuando H0 es verdadera)

a la probabilidad α también se denomina nivel de significancia de la prueba

o tamaño de la región crítica, y el investigador la debe fijar por

adelantado, según el riesgo que esté dispuesto a correr, de rechazar una

situación que en la realidad es cierta.

β = P(error tipo II) = P(No rechazar H0 cuando H0 es falsa)

A (1 - β) se denomina potencia de la prueba y es la probabilidad de rechazar

H0 cuando ésta es falsa, es decir, cuando H1 es verdadera, esto es:

1 - β =P[Rechazar H0 cuando H0 es falsa (H1 verdadera)] = Potencia de la


prueba

La potencia de la prueba mide la probabilidad de detectar las diferencias, es

decir, detectar que H1 es verdadera y es utilizada al considerar la

determinación del tamaño de muestra necesario para probar las hipótesis.

Para calcular las probabilidades α y β es necesario que las hipótesis sean

formuladas para valores específicos de los parámetros de la población,

Ejemplo 6.8

Continuando con el ejemplo anterior consideremos para la hipótesis alterna un

valor mayor que 50, por ejemplo 60, luego las hipótesis quedan especificadas

como:

Mg. Beatriz Castañeda S. 191


BIOESTADISTICA

H0: µ = 50 H1: µ = 60

Entonces la distribución de la media muestral podría ser alrededor de 50 si H0

es verdadera o alrededor de 60 si H0 es falsa (H1 es verdadera), gráficamente

tenemos:

H0 H1
α
β

1-α 1- β

x
µ = 50 c µ = 60
Región de no rechazo Región crítica o de rechazo (R.C.)

Gráfico 20. Probabilidad de error tipo I (α) y de error tipo II (β)

α = P(Rechazar H0 cuando H0 es verdadera)

= P( x se encuentre en la Región de rechazo, cuando H0 es verdadera)

= P( x > c; cuando µ = 50)

β = P(No rechazar H0 cuando H0 es falsa, es decir, H1 es verdadera)

= P( x se encuentre en la Región de no rechazo, cuando H1 es verdadera)

= P( x ≤ c; cuando µ = 60)

Observamos que las probabilidades α y β han quedado determinadas por el

punto de corte (c) y se encuentran relacionadas entre si, de manera que si

cambiamos el punto de corte una disminuye y la otra crece, y viceversa.

Mg. Beatriz Castañeda S. 192


BIOESTADISTICA

7) Nivel crítico (p) de una prueba estadística

El nivel crítico (p) es la probabilidad mínima con la que se podría rechazar la

hipótesis nula (H0) sobre la base de los resultados obtenidos en la muestra,

bajo el supuesto de que la hipótesis nula es verdadera (Conover W.J.–

Practical Nonparametric Statistics. Pág.80)

p = P(rechazar H0 con los resultados obtenido en la muestra observada,


cuando H0 es verdadera)

Este valor p es la principal estadística utilizada en la prueba de hipótesis. El

cual indica la probabilidad, asumiendo que la hipótesis nula fuera verdadera, de

que los datos observados se alejen del valor planteado en la hipótesis nula en

la magnitud observada o en una magnitud mayor, sólo debido a la casualidad o

el azar. El valor p es calculado partiendo del modelo estadístico que se

considera que describe el patrón de comportamiento de las observaciones

cuando el azar es la única causa para su variabilidad (Kenneth J. Rothman:

Modern Epidemiology pág 116).

Ejemplo 6.9

Para las hipótesis formuladas anteriormente

H0: µ ≤ 50 H1: µ > 50

Supongamos que la muestra observada proporcionó los resultados siguientes

para la media y desviación estándar:

n = 40 ; x = 58 ; S = 16

Mg. Beatriz Castañeda S. 193


BIOESTADISTICA

Deseamos saber si esta media muestral difiere significativamente con respecto

a la reducción promedio de 50 mg por 100 ml propuesta en H0, luego

calculamos p, la probabilidad de que la media de la muestra tome un valor tan

grande o mayor que 58, asumiendo que la verdadera media es igual a 50.

p = P( x ≥ 58 cuando µ = 50) o en términos de la estadística Z

 x − µ0 58 − 50 
= P ≥  = P(Z ≥ 3.16) = 0.00079
S/ n 16 / 40 

Gráficamente tenemos:

p p = 0.00079

x Z
50 58 0 3.16

Así p = 0.00079 ≅ 0.008 < 0.001

Este valor p se interpreta para tomar la decisión, así tenemos que la

probabilidad de obtener una media muestral mayor o igual a 58, cuando la

media de la población es 50, es casi improbable (p < 0.001); por lo que

concluimos que la diferencia es altamente significativa e indicadora de que la

disminución promedio del nivel de colesterol sérico es mayor de 50 mg por 100

mL.

Mg. Beatriz Castañeda S. 194


BIOESTADISTICA

Cuadro 13. NIVEL CRÍTICO DE UNA PRUEBA ESTADÍSTICA:


INTERPRETACIÓN *

Nivel crítico Interpretación Conclusión


Indica que la diferencia encontrada No rechazar H0
p > 0.05 es no significativa y puede deberse No hay evidencia suficiente
al azar del muestreo para rechazar.
Indica que la diferencia encontrada Rechazar H0 a favor de H1
0.01 < p ≤ 0.05 es significativa y que probablemente ya hay evidencia suficiente
no se deba al azar del muestreo para rechazar
Indica que la diferencia encontrada Rechazar H0 a favor de H1
es muy significativa y probable-mente hay evidencia suficiente
0.001 < p ≤ 0.01 se deba a que hay diferencias en la para rechazar
población
Indica que la diferencia encontrada Rechazar H0 a favor de H1
p ≤ 0.001 es altamente significativa y proba- hay evidencia suficiente
blemente se deba a que hay diferencias para rechazar
en la población

* Si para la realización de la prueba de se ha pre-fijado un nivel de significancia

α, entonces para tomar la decisión se compara p con α, de manera que

Si p > α, entonces no se puede rechazar la hipótesis al nivel α establecido

Si p ≤ α, entonces se rechaza la hipótesis nula para el α establecido.

Mg. Beatriz Castañeda S. 195


BIOESTADISTICA

Resumen
En esta unidad Ud. ha recibido las bases para la realización de una prueba de

hipótesis estadística, la cual será una herramienta muy útil para la

comprobación de los supuestos planteados en las investigaciones en las que

Ud, participe. A continuación se presenta un esquema resumido del

procedimiento a seguir para la realización de una prueba de hipótesis

PROCEDIMIENTO A SEGUIR PARA LA REALIZACIÓN DE UNA


PRUEBA DE HIPOTESIS

1. Defina con claridad los supuestos que se plantean en la


investigación

2. Identifique la o las poblaciones bajo estudio

3. Identifique el tipo de la variable en estudio, relacionada


con las suposiciones.

4. Plantee las hipótesis nula y alternativa.

5. Elija la prueba estadística apropiada para la prueba de las


hipótesis planteadas.

6. Pre-determine el nivel de significancia para la región de


rechazo

7. Calcule la estadística de la prueba con los datos


obtenidos para este fin

8. Obtenga el nivel crítico para el resultado obtenido con la


muestra

9. Tome la decisión comparando el nivel crítico (p) con el


nivel de significancia (α)

Mg. Beatriz Castañeda S. 196


BIOESTADISTICA

Ejercicio Aplicativo

RENDIMIENTO ESCOLAR Y DESARROLLO VISOMOTOR EN HIJOS DE


MADRES ADOLESCENTES

Silvestre N, Villena A. Gonzáles G, Instituto de Investigaciones de la Altura.


Dpto. de Ciencias Fisiológicas. Universidad Peruana Cayetano Heredia.
(Revista Médica Herediana 7. Suplemento 1, 1996. pág 6)

El objetivo del presente estudio fue determinar el desarrollo visomotor y el

rendimiento escolar en hijos de madres adolescentes y compararlos con los

observados en hijos de madres adultas. La muestra estuvo constituida por 59

niños de 7-8 años de edad, mestizos que residen en la ciudad, hijos de madres

adolescentes, y 73 niños de 7-8 años de edad, hijos de madres adultas ( > 20

años). El desarrollo visomotor fue evaluado utilizando la prueba de Bender. El

rendimiento escolar fue analizado en base al porcentaje de niños de cada

grupo que desaprobó el año escolar ( ≤ 10).

La prueba de Bender se basa en el número de errores que tiene un niño

cuando trata de reproducir nueve figuras que le han sido mostradas.

Los hijos de madres adolescentes tuvieron el mayor número de errores (6,34 ±

0,38; media ± ES) en la prueba de Bender cuando se les compara con los

resultados en hijos de madre adulta (4,75 ± 0,24; p < 0.001)

El 13,8% de hijos de madres adolescentes desaprobaron el año escolar a

diferencia del 4,3% observado en hijos de madre adulta (p <0.01)

Mg. Beatriz Castañeda S. 197


BIOESTADISTICA

En conclusión, los hijos de madres adolescentes tienen un retardo en el

desarrollo visomotor y un menor rendimiento escolar que los hijos de madres

adultas

Para esta investigación identifique

1) Población o poblaciones bajo estudio

2) Variables de interés y su tipo

3) Hipótesis del estudio

4) Hipótesis estadísticas

5) Interpretación del nivel crítico

Mg. Beatriz Castañeda S. 198


BIOESTADISTICA

6.2. PRUEBAS ESTADÍSTICAS

6.2.1. PRUEBAS PARAMETRICAS Y PRUEBAS NO PARAMETRICAS

Según los requisitos exigidos para tener en consideración la distribución de la


estadística de la prueba, las pruebas estadísticas se han dividido en dos
grandes grupos denominados Pruebas paramétricas y pruebas no paramétricas

“Pruebas paramétricas son aquellas en las que el interés se centra en probar


una hipótesis acerca de uno o más parámetros de la población, además lo
básico de estos procedimientos es que se debe conocer la distribución de la
población de la cual proviene la muestra (usualmente el modelo normal)

Pruebas no paramétricas son aquellos procedimientos que prueban hipótesis


que no son afirmaciones acerca de parámetros de la población, sino más bien
plantea determinados comportamientos para la población, o aquellos para los
cuales no se exige que la población tenga una distribución conocida” (WAYNE,
D. Bioestadística base para el análisis de las ciencias de la salud. Limusa
Wiley. Méxio 2004; pp 658-659)

Cuadro 14. PRUEBAS PARAMÉTRICAS

Número de Variable Parámetro


Grupos de interés Poblacional Prueba Estadística
Prueba Z
cuantitativa Media : µ Prueba T
Varianza: σ2 Prueba Ji-Cuadrado
Uno
Categórica Proporción: P Prueba Z
Medias: µ1, µ2 Prueba de comparación
de medias: Prueba Z o T
Media de la
Dos cuantitativa diferencia: µd Prueba - datos apareados
Prueba de comparación
Varianzas: de varianzas
σ2 1 , σ2 2 Prueba F
Prueba de comparación
Categórica Proporciones: de proporciones
P 1, P 2 Prueba Z
Prueba de comparación
Medias : de medias
µ1, µ2, ..., µk Análisis de Varianza
K cuantitativa (Prueba F)
(K ≥ 3) Varianzas: Prueba de Bartlet para
2 2 2
σ 1, σ 2, ..., σ k comparación de varianzas
Elaboración propia

Mg. Beatriz Castañeda S. 199


BIOESTADISTICA

Cuadro 15. PRUEBAS NO PARAMÉTRICAS

Número de Variable
Hipótesis Prueba Estadística
Grupos de interés
Prueba de bondad de
Distribución de la ajuste
Cuantitativa, población tiene
Ordinal o un modelo deter- Prueba Ji-Cuadrado *
categórica minado Prueba de Kolmogorov –
Smirnov
Uno
Ordinal o Médición de efec- Prueba del signo*
cuantitativa to antes-después
(observaciones Prueba de Wilcoxon*
apareadas)
Categórica Prueba de McNemar *
Comparación de
mediciones
Ordinal o (grupos indepen- Prueba de
Dos cuantitativa dientes) Mann-Whitney *
Comparación de Prueba exacta
Categórica
proporciones de Fisher *

Comparación de
mediciones Prueba de Kruskal-
(grupos indepen- Wallis*
Ordinal o dientes
cuantitativa
Comparación de
mediciones Prueba de Friedman*
(grupos depen-
K dientes)
(K ≥ 3) Comparación de Prueba de comparación
Proporciones: de proporciones o de
P1j, P2j, ..., Pkj homogeneidad
Categórica Prueba Ji-Cuadrado
Comparación de
tratamientos
(Observaciones Prueba de Cochran *
relacionadas)
* Estas pruebas no son desarrolladas en este curso
Elaboración propia

Mg. Beatriz Castañeda S. 200


BIOESTADISTICA

6.2.2. PRUEBAS PARAMETRICAS

6.2.2.1. Pruebas de Hipótesis para la media poblacional (µ)

Prueba Z para la media (µ)

Datos:

La muestra consiste de n valores cuantitativos, independientes de una

población

Requisitos:

1) La muestra es aleatoria

2) Muestra grande de cualquier población o muestra de cualquier tamaño si

la población tiene distribución normal.

3) Varianza poblacional σ2 conocida.

Hipótesis:

a) H0: µ = µ0 H1: µ ≠ µ0

b) H0: µ ≤ µ0 H1: µ > µ0

c) H0: µ ≥ µ0 H1: µ < µ0

Estadística de la prueba
x − µ0
Z=
σ/ n

Z tiene distribución normal N(0,1) si H0 es verdadera.

Regla de decisión

a) Rechazar H0 al nivel α, si Z < -Z1-α/2 ó Z > Z1-α/2

Mg. Beatriz Castañeda S. 201


BIOESTADISTICA

α/2 α/2

Z
-Z1-α/2 0 Z1-α/2
R.C. R.C.

b) Rechazar H0 al nivel α, si Z > Z1-α

α
Z
0 Z1- α
R.C.

c) Rechazar H0 al nivel α, si Z < -Z1-α

-Z1- α 0 Z
R.C.

Nota

Si la varianzas σ2, es desconocida, entonces, sólo cuando la muestra sea

grande (n ≥ 30 ), la estadística Z se obtendrá como

x − µ0
Z =
S/ n

Mg. Beatriz Castañeda S. 202


BIOESTADISTICA

Ejemplo 6.10.

Se llevó a cabo un estudio sobre nutrición en un país en desarrollo. El objetivo

del estudio fue determinar si los habitantes de una región rural tenían un

consumo diario mínimo de 2000 calorías, que cubriera sus requerimientos

básicos para la supervivencia. Una muestra de 500 adultos campesinos reportó

un consumo medio diario de calorías de 2015 con una desviación estándar de

210 calorías.

De acuerdo a los objetivos propuestos, planteamos hipótesis para el consumo

promedio diario de calorías en la región:

H0: µ = 2000 H1: µ > 2000

Recordemos que plantear que el consumo medio diario de la población es de

2000 calorías, implica que el 50% de la población consume menos de 2000

calorías y que el otro 50% consume más de 2000 calorías, por ello para que la

mayoría de la población tenga un consumo diario mínimo de 2000 calorías, el

promedio debería ser mayor de 2000 calorías (ver gráfico)

50% 50%

X
µ = 2000 µ > 2000

Como la muestra es grande calculamos

Mg. Beatriz Castañeda S. 203


BIOESTADISTICA

x−µ 2015 − 2000


Z = 0
= = 1 . 598
S / n 210 / 500

Para este valor de Z, calculado con la información de la muestra,

obtenemos el nivel crítico p para la toma de decisión:

p = 0.0548

Z
1.598

p = P(Z ≥ 1.598) = 0.0548 > 0.05

lo que indica que el consumo promedio diario de calorías no difiere

significativamente de 2000 calorías ( p >0.05), por lo que no podemos

concluir que la mayoría de la población, de esta región, tenga consumo

diario mínimo de 2000 calorías.

Prueba T para la media (µ)

Datos:
La muestra consiste de n valores cuantitativos independientes de una

población normal

Requisitos:

1) La muestra es aleatoria

2) Muestra pequeña (n < 30) procedente de una población normal.

3) Varianza poblacional σ2 desconocida.

Mg. Beatriz Castañeda S. 204


BIOESTADISTICA

Hipótesis:

a) H0: µ = µ0 H1: µ ≠ µ0

b) H0: µ ≤ µ0 H1: µ > µ0

c) H0: µ ≥ µ0 H1: µ < µ0

Estadística de la prueba

x − µ0
T =
S/ n

T tiene distribución t-Student con n-1 grados de libertad [ t(n-1) ], si H0 es

verdadera.

Regla de decisión

a) Rechazar H0 al nivel α, si T < -t1-α/2 ó T > t1-α/2

α/2 α/2

T
-t1-α/2 0 t1-α/2
R.C. R.C.

b) Rechazar H0 al nivel α, si T > t1-α

α
T
0 t1- α
R.C.

Mg. Beatriz Castañeda S. 205


BIOESTADISTICA

c) Rechazar H0 al nivel α, si t < -t1-α

-t1- α 0 T
R.C.

Ejemplo 6.11.

Un laboratorio farmacéutico conduce una investigación relativa a la eficacia de

una vacuna contra el sarampión. La variable considerada es los títulos de

anticuerpos en suero producidos por la vacuna.

La vacuna producida por otro laboratorio reporta un título promedio de

anticuerpos de 1.9.

Para probar si la nueva vacuna es más eficaz que la vacuna antigua, se aplicó

la vacuna a 16 voluntarios y se obtuvo los siguientes resultados:

1.2, 3.0, 2.5, 2.4, 1.9, 1.8, 1.5, 2.6, 2.7, 3.1, 1.7, 2.3, 2.2, 2.4, 2.2, 2.1

Luego aquí planteamos las hipótesis

H0: El título promedio del anticuerpo de esta nueva vacuna es igual al de

la vacuna antigua. (µ = 1.9)

H1: El título promedio del anticuerpo de esta nueva vacuna es mayor que

la de la vacuna antigua (µ > 1.9)

Como la muestra es pequeña, con los datos se ha se comprobado que la

distribución de los títulos del anticuerpo tienen distribución normal, por lo tanto

para probar las hipótesis utilizaremos la prueba T

Mg. Beatriz Castañeda S. 206


BIOESTADISTICA

Luego calculamos la media, desviación estándar y la estadística T para realizar

la prueba de las hipótesis.

x = 2.225 S = 0.518

x −µ0 2 .225 − 1 .9
T= = = 2 .51
S/ n 0 .518 / 16

Para el valor calculado de T obtenemos el nivel crítico p utilizando la

distribución t-Student con 15 grados de libertad. t (15 )

p = 0.012

t (15 )
2.51

Este resultado nos indica que los datos son concordantes con un valor

promedio mayor a 1.9, pues la diferencia encontrada es muy significativa (p =

0.012).

Luego podríamos concluir que la nueva vacuna produce títulos de anticuerpos

significativamente mayores que los producidos por la vacuna antigua.

Mg. Beatriz Castañeda S. 207


BIOESTADISTICA

Resumimos las pruebas de hipótesis para la media poblacional en la siguiente


tabla

Cuadro 16. PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL

a) H0: µ = µ0 H1: µ ≠ µ0

b) H0: µ ≤ µ0 H1: µ > µ0

c) H0: µ ≥ µ0 H1: µ < µ0

Distribución Decisión:
Prueba Requisitos Estadística de Rechazar H0
de la prueba La estadística Al nivel α si
Si H0 es cierta
Varianza σ2 conocida
-Todo n de población x − µ0 Normal a) Z < -Z1-
Z Normal Z= α/2
- n grande de σ/ n N(0,1) ó Z > Z1-α/2
cualquier b) Z > Z1-α
población c) Z < -Z1-α

Varianza σ2 x − µ0 Normal a) Z < -Z1-


Z desconocida Z = α/2
- n grande (n > 30) S/ n N(0,1) ó Z > Z1-α/2
de cualquier pobla- b) Z > Z1-α
ción c) Z < -Z1-α

Varianza σ2 x − µ0 t-Student a) T < -t1-α/2


T desconocida T= ó T > t1-α/2
- n < 30 de población S/ n t(n -1) b) T > t1-α
Normal c) T < -t1-α

Mg. Beatriz Castañeda S. 208


BIOESTADISTICA

6.2.2.2. Prueba Ji-Cuadrado para la varianza σ2

Datos:

La muestra consiste de n valores cuantitativos independientes de una

población normal.

Requisitos:

1) La muestra es aleatoria

2) La población es normal.

Hipótesis:

a) H0: σ2 = σ20 H1: σ2 ≠ σ20

b) H0: σ2 ≤ σ20 H1: σ2 > σ20

c) H0: σ2 ≥ σ20 H1: σ2 < σ20

Estadística de la prueba:

(n − 1) S 2
X = 2

σ 02
X2 tiene distribución Ji-cuadrado χ 2( n −1) , si H0 es verdadera.

Regla de decisión:

a) Rechazar H0 al nivel α, si X2 < χ α2 / 2 o X2 > χ 12−α / 2

α/2
α/2

X2
χ α2 / 2 χ 12−α / 2
R.C. R.C.

Mg. Beatriz Castañeda S. 209


BIOESTADISTICA

b) Rechazar H0 al nivel α, si X2 > χ 12−α

X2
χ 12− α
R.C.

c) Rechazar H0 al nivel α, si X2 < χ α2

X2
χ α2
R.C.

Ejemplo 6.12.

Para que un medicamento sea eficaz contra cierta enfermedad debe tener

cierta concentración del principio activo definida con exactitud. Por esta razón

la concentración de dichos medicamentos debe tener un valor medio de

acuerdo a lo especificado en su envase y, además, la variación de la

concentración debe ser pequeña. De no ser así las farmacias estarían

expendiendo medicamentos que podrían tener concentraciones peligrosamente

elevadas o que podrían tener una concentración tan baja que los haría

ineficaces.

Un fabricante de cierto medicamento registra en sus envases que su producto

tiene una concentración del principio activo de 5 ± 0.1 mg/cc.

Mg. Beatriz Castañeda S. 210


BIOESTADISTICA

Esta afirmación nos llevaría a plantear que la distribución de la concentración

de este medicamento sería normal con media µ = 5 y desviación

estándar

σ = ( 0.1) /3 = 0.033

gráficamente tendríamos:

99.7%

X
4.9 5 5.1
y
3σ = 0.1 3 σ = 0.1

Es decir si 3 σ = 0.1, se garantizaría que el 99.7% de los productos tendrían

una concentración en el rango de 4.9 a 5.1 mg/cc.

Para verificar la concentración del medicamento estaríamos interesados en

probar dos hipótesis para la concentración del medicamento, esto es:

a) La concentración promedio es 5 mg/cc

H 0: µ = 5 H 1: µ ≠ 5

b) La variabilidad de la concentración del medicamento es 0.033 mg /cc

H0: σ2 ≤ (0.033) 2 H1: σ2 > (0.033) 2

Mg. Beatriz Castañeda S. 211


BIOESTADISTICA

se tomó una muestra de 8 envases para los cuales se obtuvo las siguientes

concentraciones en mg /cc

4.94, 5.09, 5.03, 4.90, 4.95, 5.04, 5.02, 4.93

Como la elección de la prueba para las hipótesis formuladas acerca de la

media, en el caso de muestras pequeñas, depende de que se conozca la

varianza de la población; primero probaremos las hipótesis para la varianza

De la muestra observada obtenemos:

n=8; x = 4.9875; S2 = 0.00439; S=0.0663

(n − 1) S 2 7(0.00439)
Luego X =
2
= = 28.21
σ 20 (0.033) 2

Para el valor calculado de X2 obtenemos el nivel crítico p utilizando la

distribución Ji-Cuadrado con 7 grados de libertad. χ 2( 7)

p < 0.001

χ 2( 7)
28.21

como P < 0.001, entonces se rechaza H0 a favor de H1

Luego, este resultado nos indica que la diferencia encontrada es muy grande y

que es casi improbable que se deba a la variabilidad del muestreo por lo que

Mg. Beatriz Castañeda S. 212


BIOESTADISTICA

concluimos: Que el fabricante de este medicamento está elaborando el

producto con una concentración cuya variabilidad es mucho mayor que

la especificada en sus envases (desviación estándar = 0.033 mg/cc), pues

la diferencia encontrada es altamente significativa (p < 0.001)

Entonces, como se ha rechazado el valor supuesto para la varianza, la prueba

de las hipótesis para la media la realizaremos utilizando la prueba T para

muestras pequeñas con varianza poblacional desconocida.

H 0: µ = 5 H 1: µ ≠ 5
De los datos de la muestra tenemos:

x − µ0 4.9875 − 5
T= = = − 0.533
S/ n 0.0663 / 8

Para el valor calculado de T obtenemos el nivel crítico p utilizando la

distribución t-Student con 7 grados de libertad. t (7)

p > 0.25
2
t (7)
- 0.533

Por ser una prueba de alternativa bilateral p > 0.50 > 0.05

Este resultado nos indica que los datos son concordantes con el valor 5 para la

media poblacional, ya que la diferencia encontrada es pequeña y es altamente

probable que se deba al azar del muestro.

Mg. Beatriz Castañeda S. 213


BIOESTADISTICA

Concluimos que no podemos rechazar lo especificado por el fabricante para la

concentración media del medicamento (5 mg/cc), pues no hay evidencia

suficiente (p > 0.05)

En resumen concluimos que esta muestra nos indica que el fabricante

debería corregir la variabilidad de la concentración del medicamento para

que cumpla con las especificaciones.

6.2.2.3. Prueba Z para una proporción poblacional (P)

Datos:

Muestra que consiste de n resultados de observaciones independientes, cada

resultado puede estar en una de dos categorías pero no en ambas.

Requisitos:

1. Las n observaciones son mutuamente independientes

2. Cada resultado de las n observaciones tiene probabilidad P de

pertenecer a la categoría 1

3. La muestra es grande

4. La población es infinita, es decir la muestra(n) es máximo el 10% de la

población(N) (n ≤ 0.10 N)

Hipótesis:

a) H0: P = P0 H 1: P ≠ P 0

b) H0: P ≤ P0 H 1: P > P 0

c) H0: P ≥ P0 H 1: P < P 0

Mg. Beatriz Castañeda S. 214


BIOESTADISTICA

Estadística de la prueba:

p − P0
Z= Z es N(0,1), si H0 es verdadera
P0 (1 − P0 )
n

Regla de decisión

a) Rechazar H0 al nivel α, si Z < -Z1-α/2 ó Z > Z1-α/2

α/2 α/2

Z
-Z1-α/2 0 Z1-α/2
R.C. R.C.

b) Rechazar H0 al nivel α, si Z > Z1-α

α
Z
0 Z1- α
R.C.

c) Rechazar H0 al nivel α, si Z < -Z1-α

-Z1- α 0 Z
R.C.

Nota

Si la población es finita, es decir, la muestra (n) es mayor al 10% de la

población (N) (n > 0.10 N), entonces la estadística Z se obtendrá como

Mg. Beatriz Castañeda S. 215


BIOESTADISTICA

p − P0
Z =
P0 (1 − P0 )  N − n 
 
n  N −1

Ejemplo 6.13.

Luego de la realización de un programa de inmunización contra la rubéola, se

informó que la inmunización había tenido una cobertura del 50% de los niños

de primaria. Una institución supervisora sospecha que se ha sobre valorado la

cobertura del programa, por lo que aplicó una encuesta a 500 niños de

primaria, revelando que 150 niños habían sido inmunizados. ¿Al 5% de

significancia podremos decir que estos resultados validan lo afirmado acerca

de la cobertura del programa de inmunización?

Luego la proporción en la muestra es P = 150 = 0.30


500

Aquí planteamos las hipótesis

H0: P = 0.50 H1: P < 0.50

Calculamos la estadística Z

p − P0 0 . 30 − 0 . 50
Z = = = − 8 . 944
P 0 (1 − P 0 ) 0 . 50 ( 0 . 50 )
n 500

Calculamos el nivel crítico

p = P(Z < -8.944) ≅ 0

Este resultado nos indica la diferencia es tan grande que es improbable que

pueda deberse al azar del muestreo, por lo que para cualquier nivel de

significancia elegido se estaría rechazando la hipótesis nula, es decir,

Mg. Beatriz Castañeda S. 216


BIOESTADISTICA

concluimos que se ha sobre valorado la cobertura del programa de

inmunización.

6.2.2.4. Pruebas de Hipótesis para la comparación de medias


poblacionales (µ1, µ2)

Prueba Z para la diferencia de medias (µ1 - µ2)

Datos:

Una muestra de tamaño n1 (x1, x2, ....., xn1) de la población 1 y una muestra de

tamaño n2 (x1, x2, ....., xn2) de la población 2

Requisitos:

1) Ambas son muestras aleatorias de su población correspondiente.

2) Las poblaciones 1 y 2 son independientes

3) Las muestras son grandes (n1 ≥ 30; n2 ≥ 30) de cualquier población o

son de cualquier tamaño si la poblaciones son normales.

4) Las varianzas poblacionales σ21, σ22 son conocidas

Hipótesis:

a) H0: µ 1 = µ2 H1: µ1 ≠ µ2 H0: µ 1 - µ2 = 0 H1: µ1 - µ2 ≠ 0

b) H0: µ 1 ≤ µ2 H1: µ1 > µ2 H0: µ 1 - µ2 ≤ 0 H1: µ1 - µ2 > 0

c) H0: µ 1 ≥ µ2 H1: µ1 < µ2 H0: µ 1 - µ2 ≥ 0 H1: µ1 - µ2 < 0

Mg. Beatriz Castañeda S. 217


BIOESTADISTICA

Estadística de la prueba

( x1 − x 2 )
Z =
σ 12 σ 22
+
n1 n2

Z tiene distribución normal N(0,1) si H0 es verdadera.

Regla de decisión

a) Rechazar H0 al nivel α, si Z < -Z1-α/2 ó Z > Z1-α/2

α/2 α/2

Z
-Z1-α/2 0 Z1-α/2
R.C. R.C.

b) Rechazar H0 al nivel α, si Z > Z1-α

α
Z
0 Z1- α
R.C.

c) Rechazar H0 al nivel α, si Z < -Z1-α

-Z1- α 0 Z
R.C.

Mg. Beatriz Castañeda S. 218


BIOESTADISTICA

Nota

Si las varianzas σ21, σ22 son desconocidas, entonces sólo cuando las

muestras sean grandes (n1 ≥ 30, n2 ≥ 30), la estadística Z se obtendrá

como

( x1 − x2 )
Z =
S 12 S 22
+
n1 n2

Ejemplo 6.14.

Un epidemiólogo desea comparar dos vacunas para la rabia. Las personas que

previamente habían recibido dichas vacunas se dividieron en dos grupos. El

grupo 1 recibió una dosis de refuerzo de la vacuna del tipo 1 y el grupo 2

recibió una dosis de refuerzo de la vacuna tipo 2. Las respuestas de los

anticuerpos se registraron dos semanas después. Las medias, desviaciones

estándar y tamaños de las muestras para los dos grupos fueron los siguientes:

Tamaño de Media Desv. est.


Grupo La muestra x s
1 30 4.5 2.5
2 49 2.5 2.0

Nivel de significancia pre-fijado α = 0.01

(Enunciado adaptado de Bioestadística. 3ra edición de Daniel, W pág. 250)

Para realizar la comparación planteamos las hipótesis:

H0: No existe diferencia en la efectividad de las dos vacunas utilizadas


para dosis de refuerzo.

µ 1 = µ2

Mg. Beatriz Castañeda S. 219


BIOESTADISTICA

H1: Existe diferencia en la efectividad de las dos vacunas utilizadas para


dosis de refuerzo.

µ 1 ≠ µ2

Por ser muestras grandes y no contar con las varianzas poblacionales,

calculamos

( x1 − x 2 ) 4.5 − 2.5
Z= = = 3.71
S12 S 22 ( 2.5) 2 ( 2.0) 2
+ +
n1 n2 30 49

Para este valor de Z, calculado con la información de la muestra, obtenemos el


nivel crítico p para la toma de decisión:

p = 0.0001
2

3.71 Z

p = P (Z ≥ 3.71) = 0.0001 p = 0.0002 < 0.001


2

Comparamos este valor p con el nivel de significancia pre-determinado α = 0.01

Luego como p < 0.01

Concluimos que esta muestra es una evidencia de que existe diferencia en la

efectividad de las dos vacunas utilizadas para dosis de refuerzo (p < 0.001)

Mg. Beatriz Castañeda S. 220


BIOESTADISTICA

Prueba T para la diferencia de medias (µ1 - µ2)

Datos:

Una muestra de tamaño n1 (x1, x2, ....., xn1) de la población 1 y una muestra de

tamaño n2 (x1, x2, ....., xn2) de la población 2. La variable es cuantitativa.

Requisitos:

1) Ambas son muestras aleatorias de su población correspondiente.

2) Las poblaciones 1 y 2 son independientes

3) Muestras pequeñas de poblaciones son normales.

4) Las varianzas poblacionales σ2 1 , σ22 son desconocidas, pero se

suponen semejantes.

Hipótesis:

a) H0: µ 1 = µ2 H1: µ1 ≠ µ2 H0: µ 1 - µ2 = 0 H1: µ1 - µ2 ≠ 0

b) H0: µ 1 ≤ µ2 H1: µ1 > µ2 H0: µ 1 - µ2 ≤ 0 H1: µ1 - µ2 > 0

c) H0: µ 1 ≥ µ2 H1: µ1 < µ2 H0: µ 1 - µ2 ≥ 0 H1: µ1 - µ2 < 0

Estadística de la prueba

( x1 − x2 ) (n1 − 1)S12 + (n2 − 1)S22


T= ; con S2p =
1 1 n1 + n2 − 2
Sp +
n1 n2

dondeSp2 es la estimación de la varianza común

T tiene distribución t-Student con n1+n2 -2 grados de libertad [ t(n1+n2-2)], si H0

es verdadera.

Mg. Beatriz Castañeda S. 221


BIOESTADISTICA

Regla de decisión

a) Rechazar H0 al nivel α, si T < -t1-α/2 ó T > t1-α/2

α/2 α/2

T
-t1-α/2 0 t1-α/2
R.C. R.C.

b) Rechazar H0 al nivel α, si T > t1-α

α
T
0 t1- α
R.C.

c) Rechazar H0 al nivel α, si t < -t1-α

-t1- α 0 T
R.C.

Nota

Si no se cumple el requisito de que las varianzas sean semejantes (es

decir σ21 ≠ σ22 ), entonces la estadística T se obtendrá como:

( x1 − x 2 )
T =
S 12 S 22
+
n1 n2

En este caso la estadística T tiene distribución aproximadamente t-Student con

grados de libertad modificados, dados por

Mg. Beatriz Castañeda S. 222


BIOESTADISTICA

2
 S 12 S 22 
 
n +n 
v=  1 2 
−2
( ) +( )
S 12
n1
2
S 22
n2
2

n1 + 1 n2 + 1

Ejemplo 6.16

Con el objeto de determinar si la privación del sueño tiene algún efecto sobre la

frecuencia de la onda alfa del electroencefalograma de las personas, a veinte

personas voluntarias se dividió al azar en dos grupos. Las personas del grupo

A se sometieron a un período de privación del sueño de 10 días, mientras que

las del grupo B sirvieron de control. Al término del período experimental, se

registró la frecuencia de la onda alfa componente de los electroencefalogramas

de las personas. Los resultados fueron los siguientes:

Grupo A: 10.2, 9.5, 10.1, 10.0, 9.8, 10.9, 11.4, 10.8, 9.7, 10.4

Grupo B: 11.0, 11.2, 10.1, 11.4, 11.7, 11.2, 10.8, 11.6, 10.9, 10.9

Nivel de significancia pre-fijado α = 0.01

(Enunciado adaptado de Bioestadística. de Daniel, W , pp 240-241; obra citada)

Para determinar la presencia del efecto de la privación sensorial planteamos

las hipótesis:

H0: No existe diferencia en la frecuencia de la onda alfa para las personas

sometidas a privación del sueño respecto a las que no fueron sometidas a

la privación.

µ A = µB

Mg. Beatriz Castañeda S. 223


BIOESTADISTICA

H1: Existe diferencia en la frecuencia de la onda alfa para las personas

sometidas a privación del sueño respecto a las que no fueron sometidas a

la privación.

µ A ≠ µB

Por ser muestras pequeñas y no contar con las varianzas poblacionales, antes

de aplicar la prueba T para comparación de medias, con los datos obtenidos

para el nivel alfa en cada grupo, se debe comprobar si estas muestras validan

los requisitos de población normal y varianzas semejantes, lo cual es aceptado

(los procedimientos y resultados de estas pruebas serán presentados en la

secciones 6.2.26- ejemplo 6.19 y 6.2.3.1 – ejemplo 6.20)

Como se cumplen los requisitos de poblaciones normales y varianzas

semejantes aplicaremos la prueba T sin corrección de los grados de libertad,

luego calculamos

Tamaño de Media Desv. est.


Grupo La muestra x S
A 10 10.28 0.5978
B 10 11.08 0.4590

Varianza común

(n 1 − 1)S 12 + (n 2 − 1)S 22 9(0.5978 ) 2. + 9(0.459 ) 2


S =
2
p = = 0.284
n1 + n2 − 2 18

Y la estadística T

( x1 − x2) 10 . 28 − 11 . 08
T = = = − 3 . 357
1 1 1 1
S p + 0 . 284 +
n1 n2 10 10

Mg. Beatriz Castañeda S. 224


BIOESTADISTICA

Para el valor calculado de T obtenemos el nivel crítico p utilizando la

distribución t-Student con 18 grados de libertad. t (18 )

p < 0.005
2
t (18 )
-3.357

Por ser una prueba de alternativa bilateral p < 0.01

Luego concluimos que esta muestra es una evidencia de que existe diferencia

en la frecuencia de la onda alfa para las personas sometidas a privación

sensorial respecto a las que no fueron sometidas a la privación, es decir, que la

privación sensorial en las personas tienen efecto sobre la frecuencia de la

onda alfa de las personas (p < 0.01)

Resumimos las pruebas de hipótesis para la comparación de medias

poblacionales en el cuadro Nº 15

Mg. Beatriz Castañeda S. 225


BIOESTADISTICA

Caudro 17. PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS

a) H0: µ1 - µ2 = 0 H1: µ1 - µ2 ≠ 0
b) H0: µ1 - µ2 ≤ 0 H1: µ1 - µ2 > 0
c) H0: µ1 - µ2 ≥ 0 H1: µ1 - µ2 < 0

Requisitos Distribución de Decisión:


Prueba (Grupos Estadística la estadística Rechazar H0
independientes) de la prueba Si H0 es cierta Al nivel α si
Varianzas σ21, σ22 a) Z < -Z1-α/2
conocidas ( x1 − x 2 ) Normal ó Z > Z1-α/2
Z -Todo n1, n2 de pobla- Z=
ciones normales σ 12 σ 22 N(0,1) b) Z > Z1-α
- n1 ≥ 30, n2 ≥ 30 de +
n1 n 2
cualquier población c) Z < -Z1-α
a) Z < -Z1-α/2
Varianzas σ21, σ22 ( x1 − x 2 ) Normal ó Z > Z1-α/2
Z desconocidas Z =
- n1 ≥ 30, n2 ≥ 30 de S 12 S 22 N(0,1) b) Z > Z1-α
cualquier población +
n1 n 2 c) Z < -Z1-α
( x1 − x 2 )
Varianzas σ21, σ22 T = a) T < -t1-α/2
desconocidas, pero 1 1 ó T > t1-α/2
semejantes Sp +
T
n1 n 2
b) T > t1-α
- n1 < 30, n2 < 30 de ( n1 − 1) S + ( n 2 − 1) S
2 2

poblaciones norma- S 2p = 1 2
c) T < -t1-α
les n1 + n 2 − 2
t-Student t(n1 + n2 -2)
( x1 − x 2 ) a) T < -t1-α/2
T =
ó T > t1-α/2
Varianzas σ21, σ22 S 12 S 22
Desconocidas y dife-
+
n1 n2 b) T > t1-α
rentes
2
 S 12 S 22  c) T < -t1-α
- n1 < 30, n2 < 30 de  
T poblaciones norma- n +n 
 1 2 
v = − 2
( ) +( )
les 2 2
S 12 S 22
n1 n2

n1 + 1 n2 + 1
t-Student t(v)

Mg. Beatriz Castañeda S. 226


BIOESTADISTICA

6.2.2.5. Prueba para la media de la diferencia (datos apareados)


Comparación de mediciones para datos apareados

Un método que suele utilizarse para averiguar la efectividad de un tratamiento

o procedimiento experimental es el que usa observaciones relacionadas que se

obtienen de muestras no independientes. Una prueba de hipótesis basada en

este tipo de datos se conoce como prueba de comparaciones apareadas.

El objetivo en las pruebas de comparaciones apareadas es eliminar un

número máximo de fuentes de variación externa, haciendo a las parejas

semejantes con respecto a las demás variables inherentes a los

elementos de estudio, que podrían hacer variar el resultado esperado al

margen del efecto del tratamiento.

Las observaciones relacionadas o apareadas podrían obtenerse de varias

formas. Los mismos individuos pueden registrarse antes y después de recibir

algún tratamiento. Parejas de gemelos o hermanos pueden ser asignados al

azar para que reciban dos tratamientos, de tal manera que los miembros de

una sola pareja reciban tratamientos distintos. Al comparar dos métodos de

análisis, el material que va a analizarse se divide en partes iguales, de modo

que una de las partes se analice mediante un método y la otra por otro método.

O bien, se forman parejas combinando individuos respecto a alguna

característica, como por ejemplo edad y sexo.

Mg. Beatriz Castañeda S. 227


BIOESTADISTICA

En lugar de llevar a cabo el análisis con observaciones individuales, se

utiliza como variable de interés la diferencia entre pares individuales de

observaciones.

Hipótesis

a) H0: µd = µd0 H1: µd ≠ µd0

b) H0: µd ≤ µd0 H1: µd > µd0

c) H0: µd ≥ µd0 H1: µd < µd0

La estadística de la prueba puede ser la

d − µ d0 d − µ d0
Z= o la
T=
Sd / n Sd / n
según el cumplimiento de los requisitos, antes indicados, para la aplicación de

las pruebas Z y T para la media.

Ejemplo 6.17

Doce personas participaron en un experimento para estudiar la efectividad de

cierta dieta, combinada con un programa de ejercicio, en la reducción de los

niveles de colesterol en suero en al menos 10 unidades. La tabla muestra los

niveles de colesterol en suero para las 12 personas al principio del programa

(Antes) y al final del mismo (Después).

Colesterol en suero Diferencia


Persona Antes (X1) Después (X2) di
1 201 193 8
2 231 236 -5
3 221 216 5
4 260 233 27
5 228 214 14

Mg. Beatriz Castañeda S. 228


BIOESTADISTICA

6 237 216 21
7 326 296 30
8 235 195 40
9 240 207 33
10 267 247 20
11 284 260 24
12 209 201 8

(Enunciado adaptado de Bioestadística. 3ra edición de Daniel, W pág. 255-256)

La hipótesis del estudio sería:

La dieta combinada con el programa de ejercicios es efectiva para

reducir los niveles de colesterol en suero en al menos 10 unidades

Las hipótesis estadísticas serán formuladas como:

H0: µd ≤ 10 La dieta combinada con el programa de ejercicios no es

efectiva para reducir los niveles de colesterol en suero en al

menos 10 unidades

H1: µd > 10 La dieta combinada con el programa de ejercicios es

efectiva para reducir los niveles de colesterol en suero en al

menos 10 unidades

Para las diferencias obtenemos

d = 18.75 ; S d = 13.11

Como la muestra es pequeña y la varianza poblacional desconocida

utilizaremos la prueba T para la media de las diferencias, asumiendo que las

diferencias tienen distribución normal (este requisito debe ser probado con los

Mg. Beatriz Castañeda S. 229


BIOESTADISTICA

datos utilizando la prueba de bondad de ajuste que se desarrollará más

adelante en la sección 6.2.2.1)

d − µd0 18 . 75 − 10
T = = = 2 . 312
Sd / n 13 . 11 / 12

Para el valor calculado de T obtenemos el nivel crítico p utilizando la

distribución t-Student con 11 grados de libertad. t (11)

p = 0.0206

t (11)
2.312

Luego podemos concluir que la muestra es una evidencia significativa (p <

0.025) de que esta dieta combinada con un programa de ejercicio es efectiva

para reducir los niveles de colesterol en suero en al menos 10 unidades.

6.2.2.6. Prueba de comparación de varianzas

Datos:

Una muestra de tamaño n1 de la población 1 y una muestra de tamaño n2 de la

población 2

Requisitos:

1) Ambas muestras son aleatorias de sus respectivas poblaciones

2) Las poblaciones 1 y 2 son independientes y cada una tiene distribución

normal con varianzas σ21 y σ22 respectivamente.

Mg. Beatriz Castañeda S. 230


BIOESTADISTICA

Hipótesis:

a) H0 : σ21 = σ22 H 1 : σ2 1 ≠ σ2 2

b) H0 : σ21 ≤ σ22 H1 : σ21 > σ22

c) H0 : σ21 ≥ σ22 H 1 : σ2 1 < σ2 2

Estadística de la Prueba

S12
F = 2
S2
Si H0 es cierta, F tiene distribución F(n1-1, n2-1) ; donde n1 -1 y n2 – 1 son los

grados de libertad del numerador y denominador.

Regla de decisión

a) Rechazar H0 al nivel α, si F < Fα⁄2 ó F > F1− α⁄2

α/2
α/2

F
Fα⁄2 F1− α⁄2
R.C. R.C.

b) Rechazar H0 al nivel α, si F > F1− α

F
F1− α
R.C.

Mg. Beatriz Castañeda S. 231


BIOESTADISTICA

c) Rechazar H0 al nivel α, si F < F α

F

R.C.

Ejemplo 6.18

De dos hospitales se tomaron muestras de tamaño 10 de los pesos de recién

nacidos para probar si la dispersión de los pesos es la misma para los dos

hospitales. Los resultados obtenidos son los siguientes:

Hospital 1: 3.625, 3.430, 3.000, 3.625, 3.625, 3.150, 3.360, 3.230, 3.950, 3.400

Hospital 2: 3.800, 3.500, 3.350, 3.250, 4.100, 3.900, 3.900, 4.000, 3.670, 3.600

x 1 = 3.4395 S21 = 0.07696 n1 = 10

x 2 = 3.707 S22 = 0.07949 n2 = 10

Deseamos probar las hipótesis

H 0 : σ 21 = σ 22 H 1 : σ 21 ≠ σ 22

Luego F = 0.07696 = 0.968


0.07949

Si α = 0.05, entonces para F(9,9), obtenemos las cuantilas α/2 y 1-α/2

F0.025(9,9) = 0.2448 F0.975(9,9) = 4.03

Mg. Beatriz Castañeda S. 232


BIOESTADISTICA

0.025
0.025

↓ F(9,9)
0.2448 0.968 4.03
R.C. F R.C.

Luego concluimos que la dispersión de los pesos de los recién nacidos es la

misma para los dos hospitales, pues la diferencia encontrada no es

significativa.

Ejemplo 6.19

En el ejemplo 6.16, para poder aplicar la prueba T para comparar las medias

de dos grupos, uno de los requisitos que deben cumplir los datos es que las

varianza de ambos grupos sean semejantes, requisito que probaremos con la

prueba F

Hipótesis: H 0 : σ 2 A = σ 2B H 1 : σ 2 A ≠ σ 2B

Donde:

A es el grupo de personas a las que se sometió a un periodo de privación

sensorial de 10 días

B es el grupo control

Variable: Frecuencia de la onda alfa, componente de los

electroencefalogramas para cada persona

Mg. Beatriz Castañeda S. 233


BIOESTADISTICA

Los resultados obtenidos fueron:

Grupo A: 10.2, 9.5, 10.1, 10.0, 9.8, 10.9, 11.4, 10.8, 9.7, 10.4

Grupo B: 11.0, 11.2, 10.1, 11.4, 11.7, 11.2, 10.8, 11.6, 10.9, 10.9

Tamaño de Media Desv. est.


Grupo La muestra x S
A 10 10.28 0.5978
B 10 11.08 0.4590

Luego calculamos la estadística F para la comparación de varianzas.

Luego F = (0.5978)2 = 1.696


(0.4590)2

Si α = 0.05, entonces para F(9,9), obtenemos las cuantilas α/2 y 1-α/2

F0.025(9,9) = 0.2448 F0.975(9,9) = 4.03

Luego no se puede rechazar la hipótesis de igualdad de igualdad de varianzas,

por lo que podemos asumir que se cumple el requisito de varianzas semejantes

y que las diferencias encontradas es probable que se deban al azar del

muestreo.

Mg. Beatriz Castañeda S. 234


BIOESTADISTICA

6.2.2.7 Prueba Z para comparación de proporciones poblacionales

Datos:

Dos muestras que consisten de n1 y n2 resultados de observaciones

independientes. Para cada muestra los resultados pueden estar en una de dos

categorías pero no en ambas.

Requisitos:

1. Los n1 resultados de la muestra de la población 1 son mutuamente

independientes y de igual manera los n2 resultados de la muestra de la

población 1 también son mutuamente independientes.

2. Cada resultado de las n1 observaciones de la muestra de la población 1

tiene probabilidad P1 de estar en la categoría 1 y Cada resultado de las

n2 observaciones de la muestra de la población 2 tiene probabilidad P2

de estar en la categoría 1.

3. Las muestras son grandes (n1 ≥ 30 y n2 ≥ 30)

4. Las poblaciones son infinitas (n1 ≤ 0.10 N1 y n2 ≤ 0.10 N2), es decir las

muestras son a lo más el 10% de la población correspondiente

Hipótesis:

a) H0: P1 – P2 = 0 H 1: P 1 – P 2 ≠ 0

b) H0: P1 – P2 ≤ 0 H 1: P 1 – P 2 > 0

c) H0: P1 – P2 ≥ 0 H 1: P 1 – P 2 < 0

p1 − p 2
Estadística de la prueba Z=
Sp1 − p2

Mg. Beatriz Castañeda S. 235


BIOESTADISTICA

Z es N(0,1), si H0 es verdadera

p(1 − p ) p(1 − p )
Donde: S p1 − p2 = +
n1 n2

Si H0 es verdadera, es decir, las proporciones son iguales P1 = P2 = P

y existe una proporción común (P). la cual estimamos como:

x1 + x2
p =
n1 + n2

siendo x1 y x2 las observaciones que están en la categoría 1, para cada

muestra.

x1 x2
p1 = y p2 =
n1 n2

Regla de decisión

a) Rechazar H0 al nivel α, si Z < -Z1-α/2 ó Z > Z1-α/2

α/2 α/2

Z
-Z1-α/2 0 Z1-α/2
R.C. R.C.

b) Rechazar H0 al nivel α, si Z > Z1-α

α
Z
0 Z1- α
R.C.

Mg. Beatriz Castañeda S. 236


BIOESTADISTICA

c) Rechazar H0 al nivel α, si Z < -Z1-α

-Z1- α 0 Z
R.C.

Ejemplo 6.20

En el Ejercicio aplicativo, los investigadores tenían por objeto comparar el

desarrollo visomotor y el rendimiento escolar de hijos de madres adolescentes

con el de los hijos de madres adultas.

El desarrollo visomotor fue evaluado utilizando la prueba de Bender (Número

de errores que tiene el niño cuando trata de reproducir nueve figuras que le han

sido mostradas).

El rendimiento escolar fue analizado sobre la base del porcentaje de niños de

cada grupo que desaprobó el año escolar.

Luego para realizar la comparación, las hipótesis estadísticas planteadas han

sido:

1) Para la comparación del desarrollo visomotor

H0: µ1 = µ2

El promedio de errores de la prueba de Bender para hijos de madres

adolescentes es igual al promedio de los hijos de madres adultas.

H1: µ1 > µ2

El promedio de errores en la prueba de Bender es mayor para hijos de

madres adolescentes que para los hijos de madres adultas ( lo que indica un

retardo en el desarrollo vasomotor)

Mg. Beatriz Castañeda S. 237


BIOESTADISTICA

2) Para la comparación del rendimiento escolar

H 0: P 1 = P 2

El porcentaje de niños que desaprobó el año escolar es igual para los hijos

de madres adolescentes que para los hijos de madres adultas.

H 1: P 1 > P 2

El porcentaje de niños que desaprobó el año escolar es mayor para los hijos

de madres adolescentes que para los hijos de madres adultas. (lo que indica

menor rendimiento escolar)

La tabla siguiente resume los resultados obtenidos

Grupo Muestra Media de DE de la media Porcentaje de


n Errores( x ) (SE = S/√n) desaprobados

Madres adolescentes 59 6.34 0.38 13.8% (8)*


Madres adultas 73 4.75 0.24 4.3% (3)*

* Observamos un error en la información presentada pues el 13,8% de 59

es 8,142 niños, luego el número de niños desaprobados de hijos de

madres adolescentes fue 8 (13.6%).

De igual manera el 4,3% de 73 es 3.139, luego el número de niños

desaprobados para hijos de madres adultas es 3 (4,1%)

Por disponer de muestras grandes, tanto para la comparación de medias como

para la comparación de proporciones se utilizó la correspondiente prueba Z.

Mg. Beatriz Castañeda S. 238


BIOESTADISTICA

1) Para realizar la prueba de hipótesis para comparar las medias,

calculamos la estadística Z:

( x1 − x 2 ) 6.34 − 4.75
Z= = = 3.53
2
S S 2
0.38 + 0.24
2 2
+
1 2

n1 n 2

Luego el nivel crítico p = P(Z ≥ 3.53) = 0.00021 < 0.001

Es decir la diferencia encontrada es altamente significativa, por lo que se

puede concluir que los hijos de madres adolescentes tienen un retardo

en el desarrollo visomotor respecto al de los hijos de madres adultas

2) Para realizar la prueba de hipótesis de comparación de proporciones,

calculamos la estadística Z:

x1 + x2 8+ 3
p = = = 0 . 083
n1 + n2 59 + 73

p(1− p) p(1− p) 0.083 (0.917) 0.083 (0.917)


Sp1 − p2 = + = + = 0.048
n1 n2 59 73

p1 − p2 0 . 136 − 0 . 041
Z = = = 1 . 979
S p1−p2 0 . 048

Luego el nivel crítico p = P(Z ≥ 1.979) = 0.02385 < 0.05

Es decir, la diferencia encontrada es significativa, por lo que se puede

concluir que los hijos de madres adolescentes tienen menor rendimiento

escolar que los hijos de madres adultas.

Mg. Beatriz Castañeda S. 239


BIOESTADISTICA

6.2.3 PRUEBAS NO PARAMETRICAS

6.2.3.1. Prueba de Bondad de ajuste de Kolmogorov – Smirnov

Esta prueba es una alternativa a la prueba de bondad de ajuste Ji-Cuadrado,

preferida cuando la muestra es pequeña; desde que la prueba de Kolmogorov

es exacta aún para muestras pequeñas, mientras que la prueba Ji-Cuadrado

requiere de muestras suficientemente grande para que la distribución Ji-

Cuadrado sea una buena aproximación de la distribución de la estadística de la

prueba. En general la prueba de Kolmogorv es más potente que la prueba Ji-

Cuadrado en la mayoría de las situaciones. (Conover. Practical Nonparametric

Statistics. 2ed, pág 346)

Datos:

Una muestra de tamaño n de observaciones de una variable, las cuales son

ordenadas en una tabla de frecuencias absolutas y relativas acumuladas como

sigue:

Frecuencia Frecuencia relativa


Variable X Observada Acumulada (pi)
X1 n1 p1 = n1/n
X2 n2 p2 = (n1 + n2)/n
: : :
XK nk PK = 1
Toral n

Requisitos:

1) La muestra es aleatoria

2) La variable es de tipo numérico.

Mg. Beatriz Castañeda S. 240


BIOESTADISTICA

Hipótesis:

H0: La variable tiene distribución sigue el modelo f*(x)

H1: La distribución de la variable difiere del modelo f*(x)

Estadística de la prueba:

Para los valores Xi, observados en la muestra, se obtiene sus probabilidades

acumuladas correspondientes con el modelo f*(x) propuesto en la hipótesis

nula [Pi = P(X ≤ Xi)]. La estadística de la prueba viene a ser D, la mayor

diferencia absoluta entre la probabilidad acumulada teórica y la frecuencia

relativa acumulada (probabilidad acumulada estimada)

D = máxima{ Pi – pi }

Decisión:

Rechazar H0 al nivel α, si D > W1−α

W1−α es la cuantila 1-α de la estadística de la prueba de Kolmogorov-Smirnorv


(Tabla 6) **

** Si el modelo propuesto en H0 es el modelo normal, entonces utilizar la Tabla

7, elaborada por Lilliefors, exclusivamente para el modelo normal.

Ejemplo 6.21.

En el ejemplo 6.16. se planteó la comparación de medias del nivel alfa

componente de los electroencefalogramas para 2 grupos de personas, el grupo

A formado por personas que habían sido sometidas a un periodo de privación

sensorial por 10 días y el grupo B formado por controles. Los registros

obtenidos fueron:

Mg. Beatriz Castañeda S. 241


BIOESTADISTICA

Grupo A: 10.2, 9.5, 10.1, 10.0, 9.8, 10.9, 11.4, 10.8, 9.7, 10.4

Grupo B: 11.0, 11.2, 10.1, 11.4, 11.7, 11.2, 10.8, 11.6, 10.9, 10.9

Para que la aplicación de la prueba T sea válida debe comprobarse que las

muestras validan que la distribución de los niveles alfa, para cada grupo tiene

distribución normal

Luego planteamos dos hipótesis:

1) H0: Los registros del nivel alfa para las personas del grupo A tienen

distribución normal

H1: La distribución de los registros del nivel alfa para las personas del

grupo A no tienen distribución normal

2) H0: Los registros del nivel alfa para las personas del grupo B tienen

distribución normal

H1: La distribución de los registros del nivel alfa para las personas del

grupo B no tienen distribución normal

Procedemos a realizar la prueba de Bondad de ajuste de Kolmogorov para

cada caso.

1) Luego para los registros del grupo A obtenemos sus frecuencias

relativas acumuladas (pi) y sus probabilidades acumuladas (Pi) con el

modelo normal, utilizando los valores estimados para la media = 10.28 y

la desviación estándar= 0.5978

Mg. Beatriz Castañeda S. 242


BIOESTADISTICA

xi − x
XA pi zi = Pi = P(Z ≤ zi) Di = Pi - pi
SA
9.5 0.1 -1.30 0.095983 0.004017
9.7 0.2 -0.97 0.165967 0.034033
9.8 0.3 -0.80 0.211003 0.088997
10 0.4 -0.47 0.319755 0.080245
10.1 0.5 -0.30 0.381668 0.118332
10.2 0.6 -0.13 0.446771 0.153229
10.4 0.7 0.20 0.579547 0.120453
10.8 0.8 0.87 0.807811 0.007811
10.9 0.9 1.04 0.850164 0.049836
11.4 1 1.87 0.969503 0.030497

D = máxima{ Pi – pi } = 0.153229

Los valores Pi los hemos obtenido de la tabla de la distribución

acumulada para la normal estandarizada, calculando previamente los

valores estandarizado Zi, para cada valor X

En la tabla de Lilliefors del Test estadístico para normalidad (Tabla 7),

obtenemos, para n = 10 y nivel de significancia α = 0.05 W0.95 =

0.258

2) Luego para los registros del grupo B obtenemos sus frecuencias

relativas acumuladas (pi) y sus probabilidades acumuladas (Pi) con el

modelo normal, utilizando los valores estimados para la media = 11.08 y

la desviación estándar= 0.4590

Mg. Beatriz Castañeda S. 243


BIOESTADISTICA

xi − x
XB pi zi = Pi = P(Z ≤ zi) Di = Pi - pi
SB
10.1 0.1 -2.14 0.01638 0.08362
10.8 0.2 -0.61 0.27092 0.07092
10.9 0.4 -0.39 0.34747 0.05253
11 0.5 -0.17 0.43082 0.06918
11.2 0.7 0.26 0.60312 0.09688
11.4 0.8 0.70 0.75715 0.04285
11.6 0.9 1.13 0.87137 0.02863
11.7 1 1.35 0.91161 0.08839

D = máxima{ Pi – pi } = 0.09688

Luego como se aprecia, para ambos casos se acepta que la distribución de los

registros del nivel alfa tiene distribución normal, ya que las diferencias

máximas obtenidas 0.153229 y 0.09688 son menores que la cuantila 0.95 de la

tabla de Lilliefors.

Por lo tanto es valido aplicar la prueba T para comparar las medias.

Ejemplo 6.22.

Consideremos nuevamente el ejemplo 6.16

Doce personas participaron en un experimento para estudiar la efectividad de

cierta dieta, combinada con un programa de ejercicio, en la reducción de los

niveles de colesterol en suero en al menos 10 unidades. La tabla muestra los

niveles de colesterol en suero para las 12 personas al principio del programa

(Antes) y al final del mismo (Después).

Colesterol en suero Diferencia


Persona Antes (X1) Después (X2) di
1 201 193 8
2 231 236 -5
3 221 216 5

Mg. Beatriz Castañeda S. 244


BIOESTADISTICA

4 260 233 27
5 228 214 14
6 237 216 21
7 326 296 30
8 235 195 40
9 240 207 33
10 267 247 20
11 284 260 24
12 209 201 8

La hipótesis del estudio sería:

La dieta combinada con el programa de ejercicios es efectiva para

reducir los niveles de colesterol en suero en al menos 10 unidades

Las hipótesis estadísticas serán formuladas como:

H0: µd ≤ 10 La dieta combinada con el programa de ejercicios no es

efectiva para reducir los niveles de colesterol en suero en al

menos 10 unidades

H1: µd > 10 La dieta combinada con el programa de ejercicios es

efectiva para reducir los niveles de colesterol en suero en al

menos 10 unidades

Para las diferencias obtenemos

d = 18.75 ; S d = 13.11

Como la muestra es pequeña y la varianza poblacional desconocida, para

probar las hipótesis para la media de las diferencias se consideró la prueba T

para la media, asumiéndose que las diferencias tienen distribución normal; pero

este requisito debe ser probado con los datos obtenidos, por lo que ahora

probaremos las hipótesis

Mg. Beatriz Castañeda S. 245


BIOESTADISTICA

H0: La variable diferencia tiene distribución normal

H1: La distribución de la variable diferencia no sigue el modelo normal

Luego para las diferencias obtenemos sus frecuencias relativas acumuladas

(pi) y sus probabilidades acumuladas (Pi) con el modelo normal, utilizando los

valores estimados para la media = 19.73 y la desviación estándar= 13.28

di − d
di pi zi = Pi = P(Z ≤ zi) Di = Pi - pi
Sd
-5 0.0833 -1.812 0.0350 0.0483
5 0.1667 -1.049 0.1471 0.0196
8 0.3333 -0.820 0.2061 0.0439
14 0.4167 -0.820 0.2061 0.1272
20 0.5000 -0.362 0.3585 0.0581
21 0.5803 0.095 0.5380 0.0380
24 0.6667 0.172 0.5681 0.0152
27 0.7500 0.400 0.6556 0.0111
30 0.8333 0.629 0.7354 0.0146
33 0.9167 0.858 0.8046 0.0287
40 1.0000 1.087 0.8615 0.0552

D = máxima{ Pi – pi } = 0.1272

Los valores Pi los hemos obtenido de la tabla de la distribución acumulada para

la normal estandarizada.

En la tabla de Lilliefors del Test estadístico para normalidad (Tabla 7),

obtenemos

Para n = 12 y nivel de significancia α = 0.05 W0.95 = 0.242

Luego entonces, como D < 0.242, no podemos rechazar la hipótesis de que las

diferencias tienen distribución normal, por lo cual la prueba T aplicada para la

prueba de hipótesis para la media de la diferencia es válida, pues se cumplen

los requisitos exigidos para su aplicación.

Mg. Beatriz Castañeda S. 246


BIOESTADISTICA

Tabla 6: CUANTILAS DE LA PRUEBA DE KOLMOGOROV SMIRNOV

p (Prueba bilateral) p
n .80 .90 .95 .98 .99 n .80 .90 .95 .98 .99
1 .900 .950 .975 .990 .995 21 .226 .259 .287 .321 .344
2 .684 .776 .842 .900 .929 22 .221 .253 .281 .314 .337
3 .565 .636 .708 .785 .829 23 .216 .247 .275 .307 .330
4 .493 .565 .624 .689 .734 24 .212 .242 .269 .301 .323
5 .447 .509 .563 .627 .669 25 .208 .238 .264 .295 .317

6 .410 .468 .519 .577 .617 26 .204 .233 .259 .290 .311
7 .381 .436 .483 .538 .576 27 .200 .229 .254 .284 .305
8 .358 .410 .454 .507 .542 28 .197 .225 .250 .279 .300
9 .339 .387 .430 .480 .513 29 .193 .221 .246 .275 .295
10 .323 .369 .409 .457 .489 30 .190 .218 .242 .270 .290

11 .308 .352 .391 .437 .468 31 .187 .214 .238 .266 .285
12 .296 .338 .375 .419 .449 32 .184 .211 .234 .262 .281
13 .285 .325 .361 .404 .432 33 .182 .208 .231 .258 .277
14 .275 .314 .349 .390 .418 34 .179 .205 .227 .254 .273
15 .266 .304 .338 .377 .404 35 .177 .202 .224 .251 .269
16 .258 .295 .327 .366 .392 36 .174 .199 .221 .247 .265
17 .250 .286 .318 .355 .381 37 .172 .196 .218 .244 .262
18 .244 .279 .309 .346 .371 38 .170 .194 .215 .241 .258
19 .237 .271 .301 .337 .361 39 .168 .191 .213 .238 .255
20 .232 .265 .294 .329 .352 40 .165 .189 .210 .235 .252
1.07 1.22 1.36 1.52 1 . 63
Aproximación para n > 40 n n n n n

Fuente: CONOVER, W.J. Practical Non parametric Statistics 2ed. JOHN WILEY & SONS. New

York. 1980. pp 462.

Mg. Beatriz Castañeda S. 247


BIOESTADISTICA

Tabla 7: Cuantilas del test estadístico para normalidad de Lilliefors

P
n 0.80 0.85 0.90 0.95 0.99
4 0.300 0.319 0.352 0.381 0.417
5 0.285 0.299 0.315 0.337 0.405
6 0.265 0.277 0.294 0.319 0.364
7 0.247 0.258 0.276 0.300 0.348
8 0.233 0.244 0.261 0.285 0.331
9 0.223 0.233 0.249 0.271 0.311
10 0.215 0.224 0.239 0.258 0.294
11 0.206 0.217 0.230 0.249 0.284
12 0.199 0.212 0.223 0.242 0.275
13 0.190 0.202 0.214 0.234 0.268
14 0.183 0.194 0.207 0.227 0.261
15 0.177 0.187 0.201 0.220 0.257
16 0.173 0.182 0.195 0.213 0.250
17 0.169 0.177 0.189 0.206 0.245
18 0.166 0.173 0.184 0.200 0.239
19 0.163 0.169 0.179 0.195 0.235
20 0.160 0.166 0.174 0.190 0.231
25 0.142 0.147 0.158 0.173 0.200
30 0.131 0.136 0.144 0.161 0.187
> 30 0.736 0.768 0.805 0.886 1.031
n n n n n
Fuente: CONOVER, W.J. Practical Non parametric Statistics 2ed. JOHN WILEY & SONS. New

York. 1980. pp 463.

Mg. Beatriz Castañeda S. 248


BIOESTADISTICA

6.2.3.2 Prueba Ji-Cuadrado para comparación de proporciones


(Prueba de Homogeneidad)

Datos:

Hay r grupos o poblaciones en total, y una muestra aleatoria es elegida de cada

población. Sea ni que representa el número de observaciones en la i-ésima

muestra proveniente de la población i, para i: 1,2,3, ...., r

Cada observación en cada una de las muestras puede ser clasificada dentro de

una de las c categorías diferentes de la característica bajo estudio.

Si nij es el número de observaciones provenientes de la i-ésima muestra que

caen en la categoría j, entonces:

ni = ni1 + ni2 + .... + nic

Los datos son arreglados en la siguiente tabla de contingencia de r x c

Población o Característica
Grupo Categoría1 Categoría 2 .......... Categoría c Totales
1 n11 n12 .......... n1c n1
2 n21 n22 n2c n2
.........
r nr1 nr2 nrc nr
Totales C1 C2 Cc n

El total de observaciones de todas las muestras reunidas es denotado por n

n = n1 + n2 + ..... + nr

el número total de observaciones en la j-ésima categoría es denotado por Cj.

Esto es, Cj es el número total de observaciones en la categoría j provenientes

de todas las muestras reunidas en un solo grupo. Por ejemplo

C2 = n12 + n22 + ...... + nr2

Mg. Beatriz Castañeda S. 249


BIOESTADISTICA

Requisitos:

1) Cada muestra es una muestra aleatoria

2) Los resultados de las muestras son independientes de muestra a

muestra

3) Cada observación puede ser clasificada sólo en una de las c categorías

de la característica bajo estudio.

Hipótesis:

H0: La proporción de elementos en cada categoría es la misma para todos los

grupos o poblaciones (Los grupos son homogéneos)

P1j = P2j = ...... = Prj para cada categoría j

H1: Para 2 o más grupos hay diferente proporción de elementos en una o más

categorías

Pij ≠ Pkj para alguna categoría j


y para algún para de poblaciones i , k

Estadística de la prueba:

X = ∑∑
r c (n − E ij )
2 r c nij
2

∑∑ E
ij
2
= −n
i = 1 j =1 E ij i =1 j = 1 ij

Si H0 es verdadera, la distribución aproximada de X2 para muestras grandes es

la Ji-Cuadrado con (r-1) x (c-1) grados de libertad.

Mg. Beatriz Castañeda S. 250


BIOESTADISTICA

Donde:

Si H0 es verdadera, entonces P1j = P2j = ...... = Prj = Pj para cada categoría j

Es decir, existe una proporción común Pj de elementos en la categoría j, la

cual puede ser estimada como

P j = Cj
n

Así para la muestra del grupo i , esperaríamos ni x Pj = ni Cj elementos en la


categoría j n

Luego a Eij = ni Cj
n

Se denomina frecuencia o número esperado de elementos en la categoría j

para la muestra muestra del grupo o población i.

Regla de decisión:

Rechazar H0 al nivel α, si X2 > χ 12−α

X2
. χ 12− α
R.C.

Observaciones:
1) Si alguna de las frecuencias esperadas Eij es pequeña, la aproximación

a la distribución Ji-Cuadrado, puede ser pobre. Cochran establece que si

Mg. Beatriz Castañeda S. 251


BIOESTADISTICA

cualquiera de las Eij es menor que 1 o si más del 20% de las Eij es

menor que 5, la prueba no es aplicable.

2) Si r y c no son tan pequeños, y si parece que las Eij pueden ser tan

pequeñas como 1, sin perjuicio de comprometer la validez de la prueba,

varias categorías pueden ser combinadas para eliminar las frecuencias

esperadas pequeñas. Cuales categorías deberían ser combinadas es

problema de juicio. Generalmente, las categorías son combinadas solo

si ellas son similares en algún aspecto, tal que la hipótesis mantiene su

significado.

3) Para el caso particular en que se comparan dos grupos para una

variable con dos categorías (r = 2 y c =2), los datos quedan resumidos

en una tabla de 2x2

Variable
Población Categoría 1 Categoría 2 Total
Población 1 a b N1
Población 2 c d N2
Total C1 C2 n

la estadística de la prueba se reduce a:

n(ad − bc ) 2
X =
2

n 1 n 2 C1 C 2

La distribución aproximada de X2 es la Ji-Cuadrado con 1 grado de


libertad

Mg. Beatriz Castañeda S. 252


BIOESTADISTICA

• “Corrección de Yates. Las frecuencias observadas en una tabla de

contingencia son discretas y, de este modo, dan lugar a una estadística

discreta, X2, la que ha sido aproximada por la distribución Ji-Cuadrado

que es continua. Yates propuso una corrección para mejorar la

aproximación, a esta estadística se denomina X2 corregida y se obtiene

como:

n( ad − bc − (n / 2)) 2
X 2
corregida =
n 1 n 2 C1 C 2

• Si la muestra es pequeña n < 20 o si 20 < n < 40 y si cualquier

frecuencia esperada es menor que 5, no debe utilizarse los resultados

de la prueba Ji-Cuadrado para llegar a conclusiones acerca de las

diferencias entre las proporciones por lo que se sugiere utilizar la Prueba

Exacta de Fisher.” (Daniel,W. Bioestadística, 4ª Edición, pág 597; obra

citada)

Ejemplo 6.23

Con el objeto de comparar la distribución por grupo sanguíneo de las personas

portadoras crónicas de cierto antígeno con la distribución de grupos

sanguíneos de los no portadores, se tomó una muestra de 150 portadores y

200 no portadores obteniendo los siguientes resultados para el grupo

sanguíneo:

Mg. Beatriz Castañeda S. 253


BIOESTADISTICA

Grupo sanguíneo Portadores No portadores Total


O 72 92 164
A 54 77 131
B 16 25 41
AB 8 6 14
Total 150 200 350
(Enunciado adaptado de Bioestadística. 4 edición de Daniel, W. pp 641-642, obra citada)
ra

Luego formulamos las hipótesis estadísticas

H0: No hay diferencia, en la distribución por grupo sanguíneo, entre portadores

y no portadores.

H1: Hay diferencias en las distribuciones de grupos sanguíneos de los

portadores y no portadores.

Para realizar la prueba obtenemos las frecuencias esperadas y luego

calculamos la estadística X2

FRECUENCIAS ESPERADAS

Grupo sanguíneo Portadores No portadores Total


O 70 94 164
A 56 75 131
B 18 23 41
AB 6 8 14
Total 150 200 350

r c (n − E ij ) 2 r c nij
2
72 2 62
∑∑ ∑∑
ij
X =2
= −n= + ... + − 350 = 1.6289
i =1 j = 1 E ij i =1 j =1 E ij 70 8

Mg. Beatriz Castañeda S. 254


BIOESTADISTICA

Como r =2 grupos y c = 4 categorías, entonces en la distribución Ji-cuadrado

con 3 grados de libertad obtenemos el valor crítico p

p = P[ χ 2( 3) ≥ 1.6289] = 0.6258
Este resultado nos indica que la diferencia encontrada no alcanza significancia

estadística y que es muy probable que se deba al azar del muestreo, por lo

que no podemos rechazar la hipótesis de no diferencia en la distribución de

grupos sanguíneos.

Para complementar el análisis se puede acompañar de un gráfico comparativo

de porcentajes por categorías como el siguiente

Gráfico 21

Grupo sanguineo de Portadores y


No portadores de antigeno

60%

40%

20%

0%
O A B AB
Portadores Grupo sanguíneo
No portadores

Fuente: Daniel, W. Bioestadística, obra citada


Elaboración propia

En conclusión, no se ha encontrado diferencia significativa, en la

distribución por grupo sanguíneo, para portadores y no portadores del

antígeno (p > 0.05)

Mg. Beatriz Castañeda S. 255


BIOESTADISTICA

6.2.3.3. Prueba de Independencia Ji-Cuadrado

Datos:

Una muestra aleatoria de tamaño n es obtenida de una población. Las

observaciones en la muestra son clasificadas de acuerdo a 2 características o

variables nominales. Usando la primera característica cada observación es

clasificada en una de las r categorías de la variable y usando la segunda

característica cada observación es clasificada en una las c categorías de ésta

segunda variable.

Sea nij el número de observaciones en la categoría i de la primera variable y

en la categoría j de la segunda variable. Las frecuencias nij son arregladas en

una tabla de contingencia de r x c como sigue:

Característica Característica y
x Categoría1 Categoría 2 .......... Categoría c Totales
Categoría 1 n11 n12 .......... n1c R1
Categoría 2 n21 n22 .......... n2c R2
......... .......... .......... .......... .......... ..........
Categoría r nr1 nr2 .......... nrc Rr
Totales C1 C2 .......... Cc n

El número total de observaciones en la fila i es designado por Ri y el número

total de observaciones en la columna j es designado por Cj (enfatizando que

estas cantidades son aleatorias, no fijadas). La suma de las observaciones en

todas las casillas es n el tamaño de muestra.

Requisitos

1) La muestra de n observaciones, es una muestra aleatoria (cada

observación es independiente de las otras para ser clasificada en las

categorías i,j de las variables consideradas)

Mg. Beatriz Castañeda S. 256


BIOESTADISTICA

2) Cada observación puede ser clasificada dentro de una de las r

categorías de acuerdo con una de las características y dentro de una de

las c categorías de acuerdo a la segunda característica.

Hipótesis

H0: Las variables son independientes

(Es decir cada observación puede ser clasificada en una categoría de una

variable independientemente de la categoría en que fue clasificada de

acuerdo a la otra variable).

H1: Existe asociación o dependencia entre las variables

(Es decir una observación que es clasificada en una categoría de una

variable tiende a ser clasificada en determinada categoría de acuerdo a la

otra variable).

Prueba Estadística

Ri Cj
Sea E ij =
n
El número esperado de observaciones en la celda i,j , entonces la estadística

de la prueba esta dada por:

r c (n
ij − E ij )
2 r c nij
2

X2 = ∑∑
i =1 j =1 E ij
= ∑∑ E
i =1 j =1
−n
ij

Si H0 es verdadera, la distribución aproximada de X2 para muestras grandes es

la Ji-Cuadrado con (r-1) x (c-1) grados de libertad.

Mg. Beatriz Castañeda S. 257


BIOESTADISTICA

Regla de decisión:

Rechazar H0 al nivel α, si X2 > χ12− α

X2
χ 12− α
R.C.

Las observaciones indicadas en la sección 6.2.3.2 para la prueba Ji-Cuadrado

de comparación de proporciones también se deben tener en cuenta para la

aplicación de esta prueba.

Ejemplo 6.24

Con el objeto de verificar la suposición de que la fabricación de cierto producto

está asociado con alteraciones respiratorias, a 500 trabajadores de una

empresa que fabrica el producto se evaluó respecto a la presencia de

síntomas de alteraciones respiratorias y se los clasificó a su vez de acuerdo al

nivel de exposición al producto. Los resultados se presentan en la tabla

siguiente:

Presencia de Nivel de exposición


síntomas Alto Medio Bajo Total
Sí 185 33 17 235
No 120 73 72 265
Total 305 106 89 500
(Enunciado adaptado de Bioestadística. 3ra edición de Daniel, W pág. 485-486)

Mg. Beatriz Castañeda S. 258


BIOESTADISTICA

Las hipótesis estadísticas son formuladas como:


H0: Las alteraciones respiratorias son independientes de la exposición al

producto.

H1: Las alteraciones respiratorias están asociadas a la exposición al

producto

Obtenemos las frecuencias esperadas y calculamos la estadística X2 de la

prueba

FRECUENCIAS ESPERADAS
Presencia de Nivel de exposición
síntomas Alto Medio Bajo Total
Sí 143.35 49.82 41.83 235
No 161.65 56.18 47.17 265
Total 305 106 89 500

185 2 332 172 1202 732 722


X2 = + + + + + − 500 = 61.356
143.35 49.82 41.83 161.65 56.18 47.17

Obtenemos el valor crítico, p, de la prueba en la distribución χ 2( 2)

Así P[ χ ( 2) ≥ 61.3556] < 0.0005


2

Luego, podemos concluir que estos datos son una evidencia de que la

presencia de alteraciones respiratorias esta asociada a la exposición al

producto.

Ejemplo 6.25

Un psicólogo clínico toma una muestra de 200 pacientes que sufren ansiedad y

las clasifica de acuerdo a su restablecimiento y al tratamiento por medio de

terapia; obteniendo los siguientes datos:

Mg. Beatriz Castañeda S. 259


BIOESTADISTICA

Tratamiento Restablecimiento
Con terapia curados No curados Total
Tratados 140 20 160
No tratados 10 30 40
Total 150 50 200

Con esta información se desea evaluar si existe relación entre el tratamiento y

la curación de los pacientes. (Elorza, H. Estadística para ciencias del

comportamiento. Pág 414, obra citada)

Luego, planteamos las hipótesis:

H0: El restablecimiento de los pacientes es independiente del tratamiento

H1: Existe relación entre el tratamiento y el restablecimiento de los

pacientes.

Con los datos obtenidos calculamos el X2

n(ad − bc ) 2 200(140 x30 − 20 x10 ) 2


X =2
= = 66.67
n 1 n 2 C1 C 2 150 x50 x160 x 40

n ( ad − bc − (n / 2) )2 200( 140 x 30 − 20 x 10 − 100)2


X 2
corregida = = = 63.375
n1 n2 C1 C2 150 x 50 x 160 x 40

Obtenemos el valor crítico, p, de la prueba en la distribución χ 2(1)

Así tanto para el X2 como para el X2corregido se obtienen p < 0.0005

Luego, podemos concluir que estos datos son una evidencia de que el

tratamiento con terapia está significativamente relacionado con el

restablecimiento del paciente (p < 0.0005).

Mg. Beatriz Castañeda S. 260


BIOESTADISTICA

Práctica Domiciliaria 8

1. Una muestra aleatoria de 40 hombres que trabajan en un proyecto de

construcción de un complejo residencial indica que 6 hombres no utilizan

cascos de protección.

a) Establezca un intervalo de confianza 98% con respecto a la proporción

verdadera de hombres que no utilizan cascos de protección.

b) Si hay 1150 hombres trabajando en la construcción, con 95% de

confianza estime el número de los que no utilizan los cascos de

protección.

2. Se hicieron determinaciones de hemoglobina en 14 animales expuestos a

un compuesto químico nocivo. Se registraron los siguientes valores: 15.6,

14.8, 14.4, 16.6, 13.8, 14.0, 17.3, 17.4, 18.6, 16.2, 14.7, 15.7, 16.4,

13.9.

a) Construya un intervalo de 95% de confianza para la media. Interprete

b) Construya un intervalo de 90% para la varianza. Interprete

3. Una compañía transnacional instituyó recientemente un programa de

seguridad en el trabajo para reducir el tiempo perdido debido a accidentes

de trabajo. En los 48 meses siguientes a la implantación del programa el

tiempo perdido a causa de accidentes de trabajo promedió 91 horas por

mes con una desviación estándar de 14 horas. En los 50 meses anteriores

al programa de seguridad el tiempo perdido debido a accidentes promedió

108 horas por mes con desviación estándar de 12 horas. ¿Son estos datos

una evidencia de que el programa de seguridad ha sido efectivo para

Mg. Beatriz Castañeda S. 261


BIOESTADISTICA

reducir en mas de 10 horas el tiempo perdido debido a accidentes de

trabajo?

4. Se informa que después de una campaña de seguridad vial sólo el 2% de

los vehículos que se detienen en una autopista interestatal no han sido

sometidos a una revisión de seguridad.

a) Si se detienen 16 vehículos, encuentre la probabilidad de que a lo más 2

no satisfagan las normas de seguridad.

b) Si de un día se eligiera una muestra de 200 automóviles para verificar la

revisión de seguridad ¿cuál es la probabilidad de que al menos el 5% de

los automóviles detenidos no haya pasado la revisión?

c) Si en la muestra elegida resultó que 12 automóviles no pasaron la

revisión de seguridad ¿Qué concluiría Ud. Acerca de la información

proporcionada?

d) Si en la autopista circulan aproximadamente 8000 automóviles cada día,

obtenga una estimación con 90% de confianza para el número de

automóviles que no han pasado la revisión?

5. El peso de los pescados atrapados por un barco es aproximadamente

normal con una media de 4.5 kilos y una desviación estándar de 0.5 kilos. Si

los peces pesan menos de 3 kg la embarcación será multada con una

suspensión de un mes.

a) ¿Qué porcentaje de los peces que pesca tendrá peso máximo de 3

kilos?

b) ¿Cuál es la probabilidad de que una muestra de 50 peces atrapados

proporcione una media de a lo más 4,3 kg.?

Mg. Beatriz Castañeda S. 262


BIOESTADISTICA

c) Si una muestra de 10 peces proporciona los siguientes pesos:

3.7, 3.9, 3.5, 2.8, 5.1, 4.2, 4.4, 2.1, 5.5, 2.6

d) Corroboran estos datos lo afirmado acerca del peso de los peces.

6. Un inspector encargado del control de la contaminación de ríos, mares y

lagos, sospecha que cierta población estaba usando un río como basurero

de desperdicios semitratados. Para verificar su sospecha tomó muestras

aleatorias del agua después de la ciudad. Las observaciones de oxígeno

disuelto en partes por millón (ppm) son:

Oxígeno Disuelto (ppm) Número de muestras


[4.5 - 4.8〉 5
[4.8 - 5.2〉 8
[5.2 - 5.5〉 12
[5.5 - 5.8〉 10
[5.8 - 6.5〉 11
[6.5 - 7.0〉 9
Total 55

a) Estime el porcentaje de muestras tienen al menos 5 ppm de oxígeno

disuelto.

b) Si antes de la ciudad el río tenía un promedio de oxígeno disuelto de 5

ppm con una desviación típica de 0.5 ppm, interprete estos resultados

comparándolos con los obtenidos en las muestras tomadas después de

la ciudad.

7. La supervivencia de muchos programas de televisión depende de su grado

de popularidad. Una empresa que se dedica a medir la popularidad de los

programas de televisión reportó que un determinado programa capta el 20%

de los televidentes. Para verificar la información anterior se tomo una

Mg. Beatriz Castañeda S. 263


BIOESTADISTICA

muestra aleatoria de n = 1000 televidentes de los cuales y = 184 ven el

programa.

a) ¿Constituyen los datos anteriores evidencia suficiente para contradecir el

reporte.

b) Estime con 95 % de confianza la proporción de televidentes que ve el

programa

8. El número de fallas de un instrumento de prueba, debido a las partículas

contaminantes de un producto, ocurre en promedio a 0.25 fallas por hora.

a) ¿Cuál es la probabilidad de que el instrumento no falle en una jornada

de 8 horas?

b) Calcule la probabilidad de que en 5 días de trabajo (jornada de 8 horas)

ocurran fallas máximo en 2 de estos días.

c) Se observó el número de fallas diarias del instrumento durante un

periodo de 40 días obteniéndose los siguientes resultados:

Nº de fallas: 0 1 2 3 4 5 6 7
Nº de días: 3 8 10 9 5 3 1 1

¿Son estos datos una evidencia de que el promedio de fallas diarias es

superior a lo especificado? Calcule el nivel crítico de la prueba.

9. El fabricante de una máquina empacadora de jabón en polvo afirma que su

máquina puede llenar las cajas con el peso requerido con un rango de

llenado de no más de 0,6 onzas.

a) Si la distribución del peso de llenado es normal, al tomar 16 cajas de “48

onzas”, ¿cuál es la probabilidad de que el peso medio de llenado en la

muestra supere las 49 onzas?, ¿Cuál es la probabilidad de que la

Mg. Beatriz Castañeda S. 264


BIOESTADISTICA

varianza del peso de llenado en la muestra sea a lo más de 0,015

onzas2?

b) Una muestra de 8 cajas de “48 onzas” proporcionó un peso medio de

49,6 onzas y una varianza de 0,018 onzas2. ¿Considera Ud. que estos

resultados contradicen la afirmación del fabricante?. Use α = 0,05

c) c) Use estos resultados para encontrar un intervalo del 90% de confianza

para el recorrido o rango de la cantidad empacada al usar la máquina

del fabricante.

10. Los “raitings” de público televidente han vuelto a los productores y

patrocinadores muy sensibles a las afirmaciones acerca del auditorio que ve

un programa dado. Una estación de televisión afirma que su noticiero de las

6 p.m. es visto por el 50% del auditorio de en su área de cobertura.

a) Si lo afirmado es verdad, ¿cuál es la probabilidad de que en una muestra

de 25 televidentes no más del 40% vea el noticiero?

b) Una empresa que desea comprar tiempo de publicidad durante el

noticiero desea validar la afirmación de la transmisora ¿De qué tamaño

debe ser la muestra seleccionada por la empresa si desea que la

precisión de su estimación sea de 5% con 90% de confianza?

c) Suponga que se toma una muestra aleatoria de 100 televidentes y 38

indican que ven el noticiero de las 6 p.m. ¿Es ésta evidencia suficiente

de que la afirmación de la estación transmisora es falsa?. Proporcione el

nivel crítico de la prueba.

Mg. Beatriz Castañeda S. 265


BIOESTADISTICA

11. En una muestra aleatoria de 500 adultos residentes en cierta ciudad, se

encuentra que 385 están a favor de aumentar el límite de velocidad en las

autopistas a 120 km/h, mientras que en otra muestra de 400 adultos

residentes en otra ciudad vecina se encuentra que 267 están a favor del

aumento del límite de velocidad. ¿Estos datos indican que existe una

diferencia en el apoyo al aumento del límite de velocidad entre los

residentes de ambas ciudades? Utilice α = 0.05. Encuentre el nivel crítico

de esta prueba.

12. La toma de decisiones participativa ha sido una estrategia administrativa

que se ha adoptado como un medio para mejorar la eficiencia y la

participación de los individuos en las organizaciones. Se entrevistó a dos

grupos de empleados, los cuales difieren substancialmente en el nivel de

participación permitida por su patrón, y se les preguntó si estaban o no

satisfechos con su empleo actual. De 110 empleados de un grupo en el cual

se ha fomentado la participación del empleado, 77 afirmaron que estaban

satisfechos de sus empleos. En tanto que 52 de 125 empleados de un

grupo en el que no se permite la participación del empleado, afirmaron que

estaban satisfechos con su empleo.

Proporcione una estimación interválica para la diferencia en la proporción de

empleados satisfechos con sus trabajos, y determine una cota superior para

el error de estimación. Interprete.

13. Se compara el tiempo que tarda en reconocerse un conocido producto

comercial al usar dos colores distintos en los anuncios publicitarios. Se

obtienen los siguientes resultados (en segundos) cuando se aplica la prueba

Mg. Beatriz Castañeda S. 266


BIOESTADISTICA

a una muestra aleatoria de 8 persona, las que son expuestas a ambos

anuncios en orden aleatorio

Persona: 1 2 3 4 5 6 7 8
Anuncio 1: 1 3 2 1 2 1 3 2
Anuncio 2: 4 2 3 3 1 2 3 3

a) ¿A que conclusiones se puede llegar al nivel del 5% de significancia?

b) Obtenga un intervalo de confianza 98% para la media de la diferencia de

tiempos. Interprete el resultado.

14. Un fabricante de calculadoras electrónicas afirma que menos del 1% de su

producción es defectuosa. Se toma una muestra aleatoria de 1200

calculadoras y se encuentran 8 unidades defectuosas. Utilizando α = 0.05,

determine si esto es evidencia suficiente para apoyar la afirmación del

fabricante.

15. Una prueba diseñada para estimar la confianza en sí mismo se aplicó a 16

niños crónicamente enfermos y a 21 niños sanos. Las calificaciones medias

y desviaciones estándar fueron las siguientes:

x S
Niños enfermos 22.5 4.1
Niños sanos 26.9 3.2

a) ¿Puede concluirse, a partir de estos datos que los niños crónicamente

enfermos tienden, en promedio a obtener menores calificaciones en la

prueba que los niños sanos?. Proporcione el nivel crítico de la prueba.

b) Obtenga una estimación del 95% de confianza para la diferencia de las

calificaciones promedio en cada grupo.

Mg. Beatriz Castañeda S. 267


BIOESTADISTICA

16. El sistema de enfriamiento de un submarino nuclear está formado por un

ensamble de tuberías soldadas por donde circula un líquido refrigerante.

Las especificaciones requieren que la resistencia de la soldadura sea mayor

o igual que 150 psi.

a) Suponga que los ingenieros de diseño deciden probar la hipótesis H0: µ

= 150 contra H1: µ > 150. Explique porque esta elección de hipótesis

alternativa es mejor que H1: µ < 150.

b) Al tomar una muestra de 20 soldaduras se tiene que x = 153.7 psi y S =

11.3 psi. ¿Qué conclusiones pueden obtenerse con respecto a la

hipótesis del inciso a)? Utilice α = 0.05.

c) Obtenga una estimación interválica para la varianza de la población.

17. Se planeó una encuesta para determinar que porcentaje de los estudiantes

de secundaria de un sistema escolar metropolitano han fumado

regularmente marihuana. Si no se cuenta con una estimación de estudios

anteriores, no puede extraerse una muestra piloto y se desea un coeficiente

de confianza de 0.95 de que la precisión de la estimación será de 4%, ¿cuál

debería ser el tamaño de muestra?

18. Varios investigadores desean saber si pueden concluir que dos poblaciones

de niños difieren en cuanto a la edad media a la cual pudieron caminar por

sí solos. Se reunieron los datos siguientes (las edades están en meses):

Población A: 9.5, 10.5, 9.0, 9.75, 10.0, 13.0, 10.0, 13.5, 10.0, 9.5, 10.0, 9.75

Población B:12.5, 9.5, 13.5,13.75, 12.0,13.75, 12.5, 9.5, 12.0,13.5,12.0, 12.0

Mg. Beatriz Castañeda S. 268


BIOESTADISTICA

a) ¿Qué concluirían los investigadores? Sea α = 0.05.

b) Obtenga una estimación interválica del 95% de confianza para la

diferencia entre las edades promedio para las dos poblaciones.

19. Un fabricante afirma que al menos el 95% de las piezas que ha surtido para

cierta fábrica cumple con las especificaciones. Se examina una muestra de

200 de un lote que contiene 1000 piezas y se encuentra que 15 de ellas

son defectuosas.

a) ¿Puede decirse que los datos proporcionan evidencia suficiente para

rechazar la afirmación del fabricante? ¿cuál es el valor crítico de la

prueba?

b) Con confianza de 95%, proporcione una estimación interválica para la

proporción de piezas que cumple con las especificaciones en el lote.

Bibliografía del capítulo

1. DANIEL, W. BIOESTADÍSTICA, Base para el Análisis de las ciencias de la

Salud”. 4ª Edición, Editorial Limusa S.A. de C.V. Grupo Noriega Editores.

México 2004

2. DANIEL, W. BIOESTADÍSTICA, Base para el Análisis de las ciencias de la

Salud”. 3ª Edición, Editorial Limusa S.A. México 1991

3. CONOVER, W.J. Practical Non parametric Statistics 2ed. JOHN WILEY &

SONS. New York. 1980.

4. MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas a la

Ingeniería. McGRAW-HILL. México. 1996

Mg. Beatriz Castañeda S. 269


BIOESTADISTICA

5. ROTHMAN, K. MODERN EPIDEMIOLOGY. LITTLE, BROWN AND

COMPANY.Boston/Toronto. 1986

6. ELORZA H. Estadística para ciencias del comportamiento. Harla S.A.,

México. 1987

7. MASON, R., LIND, D. y MARCHAL, W. Estadística para Administración y

Economía. Alfaomega, Colombia. 2003

8. RENDIMIENTO ESCOLAR Y DESARROLLO VISOMOTOR EN HIJOS DE

MADRES ADOLESCENTES. Silvestre N, Villena A. Gonzáles G, Instituto de

Investigaciones de la Altura, Departamento de Ciencias Fisiológicas.

Universidad Peruana Cayetano Heredia. (Revista Médica Herediana 7.

Suplemento 1, 1996. pág 6)

Mg. Beatriz Castañeda S. 270


BIOESTADISTICA

8. REFERENCIAS BIBLIOGRAFICAS

1. DANIEL, W. BIOESTADÍSTICA, Base para el Análisis de las ciencias de la

Salud”. 4ª Edición, Editorial Limusa S.A. de C.V. Grupo Noriega Editores.

México 2004

2. DANIEL, W. BIOESTADÍSTICA, Base para el Análisis de las ciencias de la

Salud”. 3ª Edición, Editorial Limusa S.A. México 1991

3. AHLBOM, A. And NORELL, S. Itroduction To MODERN EPIDEMIOLOGY.

Epidemiology Resourses Inc. USA. 1990

4. CONOVER, W.J. Practical Non parametric Statistics 2ed. JOHN WILEY &

SONS. New York. 1980.

5. DAWSON-SAUNDERS, B. And TRAPP, R. Bioestadística Médica. 2ª

Edición. Manual Moderno, S.A. de C.V. México. 2000

6. DAWSON-SAUNDERS, B. And TRAPP, R. Bioestadística Médica. 4ª

Edición .Manual Moderno, S.A. de C.V. México. 2004

7. Centro Panamericano de Ingeniería Sanitaria y Ciencias del Ambiente.

Evaluación de Riesgos para la salud por el uso de aguas residuales en

agricultura. Anexo 3: Aspectos Microbiológicos. CEPIS-OPS. Lima, Perú.

1990

8. Centro Panamericano de Ecología Humana y Salud. Evaluación

Epidemiológica de riesgos causados por agentes químicos ambientales.

Edición de 1985. México: OPS; 1985

9. PAGANO, M y GAUVREAU, K. Fundamentos de Bioestadística. Thomson

Learning. México, 2000

Mg. Beatriz Castañeda S. 271


BIOESTADISTICA

10.ELORZA H. Estadística para ciencias del comportamiento. Harla S.A.,

México. 1987

11.OSTLE, B. “ESTADÍSTICA APLICADA, Técnicas de la Estadística Moderna,

cuando y donde aplicarlas”. Editorial LIMUSA –WILEY. México, 1973.

12.ROTHMAN, K. MODERN EPIDEMIOLOGY. LITTLE, BROWN AND

COMPANY.Boston/Toronto. 1986

13.MONTGOMERY, D y RUNGER, G. Probabilidad y Estadística aplicadas a la

Ingeniería. McGRAW-HILL. México. 1996

14.MEYER, P. L. Probabilidad y Aplicaciones Estadísticas. Addison-Wesley

Iberoamericana S.A., Buenos Aires – Argentina. 1992

15.KAZMIER, L.J. Estadística aplicada a la Administración y Economía.

McGRAW-HILL, México. 1996

16.MASON, R., LIND, D. y MARCHAL, W. Estadística para Administración y

Economía. Alfaomega, Colombia. 2003

17.RENDIMIENTO ESCOLAR Y DESARROLLO VISOMOTOR EN HIJOS DE

MADRES ADOLESCENTES. Silvestre N, Villena A. Gonzáles G, Instituto de

Investigaciones de la Altura, Departamento de Ciencias Fisiológicas.

Universidad Peruana Cayetano Heredia. (Revista Médica Herediana 7.

Suplemento 1, 1996. pág 6)

Mg. Beatriz Castañeda S. 272


BIOESTADISTICA

Anexo

RESUMEN DE ESTIMACION Y PRUEBA DE HIPOTESIS

Mg. Beatriz Castañeda S. 273


BIOESTADISTICA

Cuadro 16. ESTIMACION POR INTERVALO

Intervalo de confianza Tamaño de muestra


Parámetro Requisitos (1- α)

Varianza σ2 conocida σ Poblac. grande


-Todo n de población Normal L = x ± Z 1−α / 2 Z12−α / 2 S 2
Media - n grande de cualquier n n=
E2
población Poblac. finita
Varianza σ2 desconocida S n0
µ - n grande (n > 30) de L = x ± Z 1−α / 2 n=
n n
cualquier población 1+ 0
N
Varianza σ2 desconocida S
L = x ± t 1−α / 2
2
- n < 30 de población Z S2
n0 = 1−α / 22
Normal n E
Varianza
( n − 1) S 2 (n − 1) S 2
σ 2 La población es normal Li = Ls =
χ 12−α / 2 χ α2 / 2
Poblac grande.
Proporción Población grande p(1 − p)
Muestra grande
L = p ± Z1−α / 2 n0 =
Z 12−α / 2 p(1 − p)
n E2
P
n0
Población finita n= Poblac finita
p(1 − p)  N − n  n0
1+
Muestra grande L = p ± Z1−α / 2   N
n  N −1 
Elaboración del autor

Mg. Beatriz Castañeda S. 274


BIOESTADISTICA

Parámetro Requisitos Intervalo de confianza (1- α)


2 2
Varianzas σ 1, σ 2 conocidas
σ 12 σ 22
-Todo n1, n2 de poblaciones L = ( x 1 − x 2 ) ± Z 1−α / 2 σ x1 − x 2 σ x −x = +
normales. 1 2
n1 n2
Diferencia de -n1≥ 30, n2≥ 30 en general
medias
Varianzas σ21, σ22 s12 s22
µ1 - µ2 desconocidas
L = ( x 1 − x 2 ) ± Z 1−α / 2 S x1 − x 2 S x − x = +
1 2
n1 n2
- n1≥ 30, n2≥ 30

Varianzas σ21, σ22


Desconocidas
L = ( x 1 − x 2 ) ± t1−α / 2 S x1 − x 2
-n1<30, n2< 30 de poblaciones
normales ( n1 − 1) S12 + ( n2 − 1) S 22 1 1
S x1 − x 2 = +
n1 + n2 − 2 n1 n2

Diferencia de Muestras grandes de cada L = ( p1 − p2 ) ± Z 1−α / 2 S p1− p 2


Proporciones población.

P1 – P2 p1 (1 − p1 ) p2 (1 − p2 )
S p 1− p 2 = +
n1 n2
Elaboración del autor

Mg. Beatriz Castañeda S. 275


BIOESTADISTICA

Cuadro17. PRUEBA DE HIPÓTESIS

Distribución de Decisión:
HIPOTESIS Requisitos Estadística La estadística Rechazar H0
de la prueba Si H0 es cierta Al nivel α si
Varianza σ2 conocida x − µ0 a) Z < -Z1-α/2 ó Z > Z1-α/2
H0: µ = µ0 -Todo n de población Normal Z= Normal b) Z > Z1-α
- n grande de cualquier población σ/ n N(0,1) c) Z < -Z1-α
a) H1: µ ≠ µ0 Varianza σ2 desconocida x − µ0 Normal a) Z < -Z1-α/2 ó Z > Z1-α/2
b) H1: µ > µ0
- n grande (n > 30) de cualquier Z = b) Z > Z1-α
población S/ n N(0,1) c) Z < -Z1-α
c) H1: µ < µ0 Varianza σ2 desconocida x − µ0 a) T < -t1-α/2 ó T > t1-α/2
- n < 30 de población Normal T= t-Student b) T > t1-α
S/ n t(n -1) c) T < -t1-α
H0: σ = σ20
2
a) X2 < χ α2 / 2 ó X2 > χ 12−α / 2
a) H1: σ2 ≠ σ20 La población es normal
(n − 1) S 2 χ (2n −1) b) X2 > χ 12−α
b) H1: σ2 > σ20 X = 2

c) H1: σ2 < σ20 σ 02 c) X2 < χ α2


H0: P = P0 p − P0 Normal
a) H1: P ≠ P0 Muestra grande Z = a) Z < -Z1-α/2 ó Z > Z1-α/2
P0 (1 − P0 )  N − n  N(0,1)
b) H1: P > P0   b) Z > Z1-α
c) H1: P < P0 n  N −1  c) Z < -Z1-α
H0: P1 = P2 p1 − p 2 x1 + x 2 a) Z < -Z1-α/2 ó Z > Z1-α/2
a) H1: P1 ≠ P2 Muestras grandes de poblaciones Z =  1
; p=
n1 + n 2 b) Z > Z1-α
1 
b) H1: P1 > P2 independientes P (1 − p )  +  c) Z < -Z1-α
 n1 n 2 
c) H1: P1 < P2 Z es N(0,1)

Mg. Beatriz Castañeda S. 276


BIOESTADISTICA

H0: σ12 = σ220 Muestras de poblaciones


2 2 independientes, cada una con S12 F(n1-1, n2-1) a) F < Fα⁄2 ó F > F1− α⁄2
a) H1: σ1 ≠ σ2 0
b) H1: σ1 > σ2 0 distribución normal.
2 2 F= 2 b) F > F1− α
c) H1: σ12 < σ220
S2 c) F < F α
Varianzas σ21, σ22 conocidas ( x1 − x 2 )
Z= Normal a) Z < -Z1-α/2 ó Z > Z1-α/2
2 2
-Todo n1, n2 de poblaciones σ σ
1 2 b) Z > Z1-α
normales + N(0,1) c) Z < -Z1-α
a)H0: µ1- µ2 = 0
n1 n 2
- n1 ≥ 30, n2 ≥ 30 de cualquier
H1: µ1 - µ2 ≠0 población
Varianzas σ21, σ22 desconocidas ( x1 − x 2 )
Z= Normal a) Z < -Z1-α/2 ó Z > Z1-α/2
b)H0: µ1 - µ2 ≤ 0 - n1 ≥ 30, n2 ≥ 30 de cualquier S12 S 22 b) Z > Z1-α
+
H1: µ1- µ2 > 0 población n1 n2 N(0,1) c) Z < -Z1-α
( x1 − x 2 )
Varianzas σ21, σ22 desconocidas, T = es t ( n1+ n 2− 2 ) a) T < -t1-α/2 ó T > t1-α/2
c)H0: µ1 - µ2 ≥ 0 1 1
pero semejantes Sp +
H1: µ1 - µ2 < 0 n1 n2
b) T > t1-α
- n1 < 30, n2 < 30 de poblaciones ( n1 − 1) S + ( n2 − 1) S
2 2

normales S p2 = 1 2
c) T < -t1-α
n1 + n2 − 2

Varianzas σ21, σ22 desconocidas y  S12 S 22 


2

diferentes ( x1 − x 2 )  +  a) T < -t1-α/2 ó T > t1-α/2


T =  n1 n2 
v= 2 2 −2
- n1 < 30, n2 < 30 de poblaciones S12 S 22
+ ( ) +( )
S1
n1
2
S2
n2
2
b) T > t1-α
normales n1 n2 n1 + 1 n2 + 1
c) T < -t1-α
T es t(v)
Elaboración del autor

Mg. Beatriz Castañeda S. 277

También podría gustarte