Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sexto Semestre
31153636
Programa desarrollado
0
Bioestadística
U2 Herramientas bioestadísticas para la toma de decisiones
Herramientas bioestadísticas
para la toma de decisiones
Programa desarrollado
Contenido
2.1 Estimación ................................................................................................................... 3
2.1.1 Características de un buen Estimador ............................................................ 4
2.1.2. ¿Qué es un intervalo de confianza y cuál es su utilidad? ............................... 5
2.1.3. Intervalo de confianza para la media de una población ................................. 5
2.1.4. La distribución de T de Student ..................................................................... 7
2.1.5. Intervalo de confianza para la diferencia entre dos medias poblacionales ... 10
2.1.6. Intervalo de confianza para la proporción de una población ........................ 10
2.1.7. Intervalo de confianza para la diferencia entre las proporciones de dos
poblaciones ........................................................................................................... 10
2.1.8. Tamaño de muestra..................................................................................... 10
2.2 Prueba de hipótesis ................................................................................................... 16
2.2.1. Introducción y conceptos básicos ................................................................ 17
2.4 Correlación y regresión .............................................................................................. 19
2.4.1. Relación entre correlación y regresión lineal................................................ 19
2.4.2. Correlación .................................................................................................. 20
2.4.3. Regresión .................................................................................................... 28
Cierre de la unidad .......................................................................................................... 33
Fuentes de consulta ........................................................................................................ 33
Bibliografía complementaria............................................................................................. 35
Apéndice de símbolos matemáticos................................................................................. 35
Apéndice de valores críticos de la distribución normal ..................................................... 37
Apéndice de valores críticos de la distribución t ............................................................... 38
2.1 Estimación
Los Intervalos del Confianza son intervalos aleatorios obtenidos a partir de los datos y en
los cuales hay un grado de confianza prefijado (medido en %) de que dicho intervalo
contenga al verdadero valor del parámetro que se quiere estimar.
El grado de confianza se denomina nivel de confianza y se lo denota como 100(1-α)%,
donde α se considera a menudo como la probabilidad de cometer un error, ya que indica
la proporción de veces en que uno se equivoca o comete un error al suponer que el
intervalo contiene al parámetro poblacional. Usualmente el valor de α es 5; y se fija en el
95%, lo que llevaría a establecer que en promedio sólo en el 5% de los casos se
cometería error al suponer que el intervalo contiene al verdadero valor del parámetro.
Tabla 1. . Porcentaje de viviendas con drenaje en las 32 entidades federativas de México en 1990
y 2010.
Baja California 32.5 6.2 Hidalgo 57.6 16.5 San Luis Potosí 50.7 19.4
Baja California Sur 33.9 5.8 Jalisco 19.9 3.1 Sinaloa 45.3 9
Campeche 52.1 14.3 México 27.4 8 Sonora 34.3 9.9
Coahuila 31.2 4.4 Michoacán 45.5 14.5 Tabasco 38.3 8.2
Colima 18.7 1.3 Morelos 35.9 7.6 Tamaulipas 40.3 11.7
Chiapas 59.5 19.5 Nayarit 42.3 6.5 Tlaxcala 44.3 7.2
Chihuahua 33.2 6.7 Nuevo León 18.9 2.7 Veracruz 51.2 19.7
Ciudad de México 6.6 0.8 Oaxaca 70.1 30.2 Yucatán 52.4 19.7
Durango 45.7 11.6 Puebla 53.3 15 Zacatecas 52.4 10.9
Guanajuato 41.1 10.6 Querétaro 42 8.9
Media 40.47 10.81
n 32 32
Sd 14.64 7.27
IC ± 5.07 ± 2.52
*Los valores para la media, desviación estándar, tamaño de muestra y el intervalo de confianza
𝑧𝛼 𝜎
estimados con base en la fórmula 𝑥̅ ± . (INEGI, Servicios y bienes en las viviendas, 2011).
√𝑛
Al graficar estos datos (figura 1), se puede observar que los estados que están en una
situación desfavorable con respecto al número de viviendas sin drenaje, por encima de la
media nacional son: en 1990, Campeche, Chiapas, Guerrero, Hidalgo, Oaxaca, Puebla,
San Luis potosí, Veracruz, Yucatán y Zacatecas. Mientras que, para 2010, los estados
que se encuentran fuera de los intervalos de confianza y por arriba con respecto a la
media nacional son: Campeche, Chiapas, Guerrero, Hidalgo, Michoacán, Oaxaca, Puebla,
San Luis Potosí; Veracruz y Yucatán.
En la figura 1 se puede observar el porcentaje de viviendas sin drenaje en las 32
entidades federativas de México, en 1990 (cuadro negro) con la media nacional (40.47)
línea continua azul, e intervalos de confianza al 95% línea punteada, y en 2010 (circulo)
con la media nacional (10.81) en línea continua azul, e intervalos de confianza al 95%
línea punteada azul.
1990
80 2010
Porcentaje de viviendas sin
70
60
50
drenaje
40 40.47
30
20
10 10.81
0
Baja California
Campeche
Durango
Sinaloa
Guerrero
Jalisco
Nuevo León
Puebla
Tlaxcala
Colima
Oaxaca
Chihuahua
Guanajuato
Hidalgo
México
Querétaro
Quintana Roo
Sonora
Tabasco
Tamaulipas
Yucatán
Aguascalientes
Coahuila de Zaragoza
Chiapas
Distrito Federal
Michoacán de Ocampo
Morelos
Zacatecas
Nayarit
De esta forma, la estimación de los intervalos de confianza son una poderosa herramienta
estadística que nos permite observar si los datos se encuentran o no dentro de la media
estimada con sus intervalos de confianza al 95%, si están por fuera de estos intervalos,
entonces se debe revisar qué está ocurriendo para que los datos no tengan un
comportamiento dentro de la tendencia general del grupo de datos.
Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra
aleatoria de tamaño 25 que se selecciona de una distribución normal.
Como se vio y utilizó en la prueba anterior, se utilizan datos de tablas para determinar si
hay o diferencias entre los comportamientos de dos fenómenos comparados; estas tablas
frecuentemente indican la probabilidad de que el resultado de nuestra prueba se
encuentre dentro de los valores reales de la población. Con respecto a la probabilidad es
importante conocer los tipos de distribuciones que esta presentan y que a continuación de
abordan en este documento.
Se debe estimar el tamaño de muestra para poder calcular los estimadores de los
parámetros, en este sentido se han propuestos algunos modelos para ello.
En general se seleccionan a los sujetos siguiendo determinados criterios procurando que
la muestra sea representativa (Cuesta y Herrero, 2007). (tabla 2).
Tabla 2. Tipos de muestreo no probabilístico, sus ventajas y desventajas (Cuesta y Herrero, s.f.).
Subtipo Características
Aguilar Barojas (2005), indica una serie de modelos para estimar el tamaño de muestra en
investigaciones en salud, considerando que el nivel de confianza tiende a ser del 99, 95 y
90 %, lo que significa que Z en valores estimados en tablas es de 2.58, 1.96 y 1.65,
respectivamente.
Para calcular el tamaño de muestra es necesario considerar si el tamaño de la población
es desconocida o infinita ˃10, 000 elementos del universo; o si es finita, es decir que se
conoce el tamaño de la población, por ejemplo el tamaño de pacientes hospitalizados en
un piso de un hospital, es una población finita y se sabe cuántos pacientes hay en cada
momento; el ejemplo del tamaño de una población desconocido es el tamaño de
individuos infectados por virus de VIH, se tienen aproximaciones, pero debido a que no
todos han sido diagnosticados y en el país somos casi 124 millones de personas.
De este modo tenemos los siguientes modelos de estimación para el tamaño de muestra
para datos cuantitativos:
Modelo de la estimación del tamaño de la muestra para la población infinita o
desconocida:
𝑍𝛼2 ∙ 𝑝 ∙ 𝑞
𝑛=
𝑖2
Modelo de la estimación del tamaño de la muestra para la población finita y conocida:
𝑍𝛼2 ∙ 𝑁 ∙ 𝑝 ∙ 𝑞
𝑛=
𝑖 2 (𝑁 − 1) + 𝑍𝛼2 ∙ 𝑝 ∙ 𝑞
Donde:
n: tamaño de la muestra.
N: tamaño de la población
Z: valor correspondiente a la distribución de gauss, zα= 0.05 = 1.96 y Zα= 0.01 = 2.58
p: prevalencia esperada del parámetro a evaluar, en caso de desconocerse (p =0.5), que
hace mayor el tamaño de la muestra.
q: 1 – p (si p = 70 %, q = 30 %).
i: error que se prevé cometer si es del 10 %, i = 0.1
(Murray y Larry, 2005).
Para su mejor comprensión se ejemplifica cada caso:
Para población infinita, es decir que desconoce el tamaño de la población. Se necesita
estimar el tamaño de muestra de adultos mayores en una colonia popular de la Cd. de
México, de este modo se tiene:
𝑍𝛼2 ∙ 𝑝 ∙ 𝑞
𝑛=
𝑖2
Sustituyendo el modelo con datos, donde:
Z2α=1.96, es decir para tener el 95% de nivel de confianza
p: prevalencia esperada del parámetro a evaluar, en caso de desconocerse (p =0.5), que
hace mayor el tamaño de la muestra.
q: 1 – p (si p = 0.5, q = 0.5).
i2=0.12
Entonces:
1.962 ∙ 0.5 ∙ 0.5
𝑛=
0.12
n= 96.04
Como no existen 96.04 personas se redondea y serían 96 personas
Para población finita, es decir conocido el tamaño de la población, se presenta este
ejemplo: Se desea estimar la prevalencia de apnea del sueño en la población femenina de
la consulta de neumología de un hospital de segundo nivel, el tamaño de la población es
de 249 personas.
Entonces se tiene:
𝑍𝛼2 ∙ 𝑁 ∙ 𝑝 ∙ 𝑞
𝑛=
𝑖 2 (𝑣 − 1) + 𝑍𝛼2 ∙ 𝑝 ∙ 𝑞
Z2α=1.962
N=249
p: prevalencia esperada del parámetro a evaluar, en caso de desconocerse (p =0.5), que
hace mayor el tamaño de la muestra.
q: 1 – p (si p = 0.5, q = 0.5).
i2=0.12
(Murray y Larry, 2005).
Substituyendo los datos en el modelo:
1.962 ∙ 249 ∙ 0.5 ∙ 0.5
𝑛=
0.12 (249 − 1) + 1.962 ∙ 0.5 ∙ 0.5
n= 80.52, es decir 81 personas.
Con respecto al muestreo para datos cualitativo, para estimar el tamaño de muestra para
población finita (cuando se emplean escalas nominales, como por ejemplo, ausencia o
presencia del fenómeno a investigar, se utiliza el modelo:
𝑛´
𝑛= ´
1 + 𝑛 ⁄𝑁
Donde
𝑠2
𝑛´ =
𝜎2
𝑠 2 = 𝑝(1 − 𝑝) y 𝜎 2 = (𝑠𝑒)2
Donde:
n= tamaño muestral
N= tamaño de la población
s2= varianza muestral
σ2= varianza poblacional
se= error estándar
p= porcentaje de confianza
(Murray y Larry, 2005).
Para comprender esta modelo, se ejemplifica con un estudio sobre el conocimiento que se
tiene en la población del 3er grado de 5 escuelas secundarias de la delegación Gustavo
A. Madero en la Cd. De México sobre las formas de transmisión de VIH/SIDA.
La población está formada por 1098 estudiantes, los datos con los que se cuentan es un
error estándar de 1.2% y confianza del 95%.
n=1098
se=1.2% =0.012
s2= p(1-p) = 0.95(1-0.95) = 0.0475
σ2= (se)2= (0.012)2= 0.000144
0.0475
𝑛´ =
0.000144
n´=329.86
329.86
𝑛=
1+ 329.86⁄1098
329.86
𝑛=
1+(329.86⁄1098)
A partir de los datos de la muestra se encontraron valores numéricos calculados con base
a los datos de la variable en una población (estadístico), es decir fue calculado con base a
los datos de la variable de la muestra y da información cercana a la realidad del
parámetro (tabla 4).
De este modo, en la investigación si se está interesado en conocer algún parámetro de
una población de interés (media, proporción, coeficiente de correlación, etc.), en nuestro
ejemplo, la edad promedio d los trabajadores de un hospital, una posibilidad es obtener
una muestra de tamaño n (en este caso 60 trabajadores) y conseguir una estimación de
parámetro usando un estimador, aquí fue una edad promedio (media) de 40.43 años.
Como ya se mencionó una hipótesis es una suposición basada en datos estadísticos que
nos permita realizar un análisis para brindar información para la toma de decisiones.
Básicamente utilizamos una prueba de hipótesis para determinar si podemos inferir el
comportamiento de una población, considerando una muestra de ella. Con base al
comportamiento estadístico podemos tener dos tipos de hipótesis:
• Hipótesis nula
• Hipótesis alternativa
Tabla 5. Conclusiones a las que conduce cada posible resultado de un contraste de hipótesis
(Botella-Rocamora , Alacreu-García, y Martínez-Beneito, s.f).
Realidad sobre H0
Decisión
Cierta Falsa
Rechazar H0 Error tipo I Decisión correcta
Cuando tenemos dos variables, y debemos cerciorarnos si existe una relación entre estas,
como por ejemplo peso y talla, es decir si hay una correspondencia o correlación
proporcional entre el crecimiento de una variable con respecto a la otra, utilizamos el
coeficiente de correlación lineal, este se conoce como “r” e indica la correspondencia
entre variables.
Ahora bien, cuando hemos considerado que dos variables pueden tener una relación
proporcional de crecimiento y hemos calculado el valor de “r” para asegurarnos de ello,
ahora podemos realizar un análisis de regresión, el cual consiste en construir un modelo
matemático lineal para representar el fenómeno estudiado; revisaremos a detalle esto en
los siguientes subtemas.
2.4.2. Correlación
Para valorar la asociación entre dos variables y se tiene un conjunto de datos, el primer
paso es determinar si hay una relación entre ambos conjuntos de datos (variable
independiente y variable dependiente), para que quede claro pongamos un ejemplo (tabla
7). Se quiere saber si existe una relación entre el pulso de los pacientes que
cotidianamente hacen ejercicio con respecto al tiempo que dura su actividad física, para
ello se sortean a los pacientes y se eligen a 15, se hace que corran durante 1.5 km a los
pacientes y se registra el tiempo en que recorren el 1.5 km.
Tabla 7. Datos del pulso de 15 pacientes y el tiempo de actividad física
Pulso
Tiempo
Paciente X variable
Y variable dependiente
independiente
1 54 292
2 64 424
3 52 325
4 56 356
5 80 465
6 57 377
7 58 364
8 70 430
9 59 369
10 66 396
11 65 399
12 71 469
13 66 398
14 77 487
15 67 481
Como se puede observar, cuando se tienen relación se puede ver en forma de una recta,
en donde aumenta el tiempo de ejercicio conforme aumenta el pulso; después de esto si
se trabaja en Excel, se posiciona uno sobre los puntos y con se oprime el botón derecho,
aparece la opción agregar línea de tendencia; ahí se da click, y se selecciona agregar
línea de tendencia lineal, así como Presentar ecuación del gráfico y el valor R cuadrado
del gráfico; ver figura 3.
Figura 3. Línea de tendencia, ecuación de ella (recta), y coeficiente de correlación lineal de los
datos de la tabla 7.
Donde
m es el valor de la pendiente
n es el número de datos
Xi es el valor de cada dato de la variable independiente
Yi es el valor de cada dato de la variable dependiente
(∑ 𝑌𝑖 ) − 𝑚(∑ 𝑋𝐼 )
𝑏=
𝑛
Donde
B es el valor de la ordenada al origen
n es el número de datos
m es el valor de la pendiente
Xi es el valor de cada dato de la variable independiente
Yi es el valor de cada dato de la variable dependiente
(Ortiz y Díaz, 2014).
Figura 4. Diferentes tipos de relación entre variables; A, sin relación; B, relación no lineal; C,
relación lineal positiva; D, relación lineal negativa.
Para que pueda comprenderse mejor, pongamos un ejemplo: se quiere estimar cual será
la tasa de crecimiento para el año 2025, para ello tenemos datos de crecimiento de 1990
al 2014 (tabla 8).
Tabla 8. Tasa de crecimiento total en México de 1990 a 2014 (Secretaría de Salud, 2016).
1.6
Tasa de crecimiento
1.2
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
El coeficiente de correlación lineal puede ser estimado con base al siguiente modelo:
∑ 𝑋𝑌 ̅̅̅̅
∗ XY
𝑟𝑥𝑦 = 𝑁
𝑆𝑥 𝑆𝑦
Número de dato X Y X2 Y2 XY
1 103 2 10609 4 206
2 105 4 11025 16 420
3 105 6 11025 36 630
4 112 3 12544 9 336
5 116 8 13456 64 928
6 118 7 13924 49 826
Con los datos de esta tabla se grafican los datos de “x” y “y”, y se obtienen la figura 6.
Con los datos y la ecuación de correlación lineal tenemos estimamos podemos determinar
el coeficiente de correlación lineal, e, para saber que tanto estas variables están
correlacionadas:
∑ 7871
∗787.1 139245
𝑟𝑥𝑦 = 10
𝑥2 𝑦2
=√ 10
− 117.52 = 10.874
∑ ∙∑
𝑁 𝑁
619526.41
𝑟𝑥𝑦 = 680908.05 = 0.9098533 ∴ la relación entre estas variables es una fuerte correlación
positiva, como se muestra en la figura 6.
2.4.3. Regresión
Ahora bien, no todas las relaciones entre variables tienen un comportamiento de tipo
lineal, hay relaciones de tipo potencial y exponencial. Veamos ejemplos de estas
relaciones.
Se ha registrado el incremento del peso de un bebé prematuro durante 26 meses,
obteniéndose los datos de la tabla 10.
Tabla 10. Datos de peso de bebé prematuro durante sus primeros 26 meses de vida.
Al graficar estos datos se observa que la relación entre las variables no describe un
comportamiento lineal (figura 7).
Figura 7. Incremento en peso (kg) de un bebé prematuro durante sus primeros 26 meses de vida
Figura 8. Incremento en peso (kg) de un bebé prematuro durante sus primeros 26 meses de vida
con la transformación de los datos de la variable X (independiente) en logaritmo natural.
Si bien la regresión lineal nos da información de la relación entre variables, también nos
permite hacer comparaciones entre rectas de una o de más poblaciones; en este sentido
se puede comparar dos coeficientes de regresión lineal.
Por ejemplo, se desea saber si los programas de control de natalidad en el estado de
Chiapas han tenido efecto en dos periodos de tiempo diferentes, para lo cual se tienen
datos de la tasa de natalidad del estado de 1990 a 2015, y se quiere saber si la tasa de
natalidad ha disminuido de igual forma durante el periodo de 1990 a 2001, con respecto al
periodo de 2003 a 2014 (tabla 12).
Tabla 12. Tasa de natalidad del estado de Chihuahua durante el periodo de 1990 a 2004
(Secretaría de salud, 2016).
Año X Año X
Número Tasa de Número Tasa de
Serie Serie
de dato natalidad Y de dato natalidad Y
1999-2002 1999-2002
1 1990 25.36 13 2003 21.62
2 1991 25.03 14 2004 21.48
3 1992 24.67 15 2005 21.33
4 1993 24.38 16 2006 21.12
5 1994 24.04 17 2007 20.81
6 1995 23.63 18 2008 20.46
7 1996 23.23 19 2009 20.08
8 1997 22.86 20 2010 19.41
9 1998 22.57 21 2011 19.26
10 1999 22.38 22 2012 19.09
11 2000 22.21 23 2013 18.94
12 2001 21.98 24 2014 18.79
Al graficar los datos se aprecia que ambas pendientes tienen una inclinación similar
(figura 9).
Figura 9. Tasa de natalidad del estado de Chiapas para el periodo de 1990 a 2002, y para el
peridodo 2003 a 2015.
Para saber más sobre la ecuación de la recta y cómo puedes utilizar Excel para este fin,
consulta el siguiente material:
http://www.uv.es/zuniga/08_Ajuste_de_una_recta_por_minimos_c
uadrados.pdf
Cierre de la unidad
En esta unidad se han revisado las pruebas estadísticas más frecuentemente utilizadas,
algunas de ellas se retomaron de cursos anteriores (estadística básica); de estas
herramientas o pruebas estadísticas se espera que sean de ayuda para el análisis de
datos, en especial de los indicadores que están disponibles de ser consultados en bases
de datos federales, y que son información valiosa para estimar tendencias y corroborar en
que aspectos es necesario reevaluar las estrategias que se están siguiendo para el
cumplimiento de las metas y objetivos propuestos en los planes de desarrollo, así como
en los sectoriales, en especial en aquellos del sector salud. La toma de decisiones con
base a análisis de pruebas estadísticas fortalece y valida estas, ya que está basado en
datos y análisis sólidos incluyendo argumentos de probabilidad y de certidumbre.
Fuentes de consulta
Bibliografía complementaria
Álvarez, C. R. (2007). Estadística aplicada a las ciencias de la salud. España, Ediciones
Díaz de Santos.
Canabos, C. G. (1988). Probabilidad y estadística: Aplicaciones y Métodos, México, Mac
Graw Hill.
Milton, S. J. (2007). Estadística para Biología y Ciencias de la Salud. España, McGraw Hill
Ruiz, M. D. (s.f.). Manual de estadística. Recuperado de
https://www.eumed.net/cursecon/libreria/drm/24.pdf
Santaló, L.A. (1975). Probabilidad y estadística. Argentina, Secretaría General de la
organización de Estados Americanos.
∴= 𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜
<= 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒
>= 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒
≤= 𝑚𝑒𝑛𝑜𝑟 𝑜 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒
≥= 𝑚𝑎𝑦𝑜𝑟 𝑜 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒
∑= sumatoria
│= valor absoluto
√ = 𝑟𝑎í𝑧 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑎