Está en la página 1de 7

Capı́tulo 1

Bioestadı́stica, base para el análisis de las


ciencias de la salud

1.1. Introducción Estadı́stica inferencial Incluye procedimientos que


permiten la extrapolación y generalización sobre ca-
Iniciamos con la definición de algunos conceptos racterı́sticas que tipifican a todos los elementos de la
elementales y básicos, para una comprensión intuiti- población. Puede decirse que es el proceso de hacer
va y real de lo que es la estadı́stica. Son muchas las afirmaciones o predicciones sobre toda la población,
definiciones que existen de lo que es la estadı́stica co- tomando como base, sólo a la información recolectada
mo ciencia del conocimiento, entre estas se destacan a través de una muestra.
las siguientes:
Ciencia de las matemáticas que se encarga de la 1.2. Algunos conceptos básicos
selección, recolección, tabulación, presentación
y análisis de la información que se utiliza en la A continuación se presentan los principales con-
toma de decisiones. ceptos básicos de estadı́stica
Conjunto de métodos para efectuar decisiones
adecuadas frente a la incertidumbre. 1.2.1. Población
Operación de análisis matemático, que permite Conjunto de elementos que son de interés en un
estudiar con el máximo de presición, los fenóme- estudio (poseen caracterı́sticas comunes acerca de los
nos incompletamente conocidos. cuales se desea tener información). Usualmente a di-
chos elementos se les denomina individuos, observa-
Las aplicaciones más importantes en el campo de la
ciones o mediciones. La población puede ser finita o
estadśitica se relacionan con:
infinita.
Recolección de datos.
Registro y presentación de la información. 1.2.2. Muestra

Formulación de modelos. Es una parte de la población. Para estudios es-


tadı́sticos, se requieren muestras que nos den infor-
Pruebas de hipótesis. mación real de la población. El Muestreo es el pro-
Diseños de experimentos. ceso mediante el cual se seleccionan los elementos de
una población.
Por lo anterior, se tiene que la estadśitica constitu-
ye una herramienta auxiliar en las investigaciones,
1.2.3. Variables estadı́sticas
para planificar la obtención de la información, anali-
zar esta información y extraer conclusiones válidas en Son caracterı́sticas o atributos de interés que pue-
términos de probabilidad y ası́ de esta forma tomar den ser observadas en los elementos poblacionales.
decisiones. La estadı́stica se divide en dos grandes ra- Algunos ejemplos de variables son presión sanguı́nea
mas: estadı́stica descriptiva y estadı́stica inferencial. diastólica, frecuencia cardiaca, estatura de varones
adultos, peso de niños en edad preescolar y la edad
Estadı́stica descriptiva Comprende los procesos de los pacientes que consultan a un odontologo. Se
de consolidación, resumen y descripción de los datos clasifican en: Cualitativas son aquellas que describen
recopilados. tablas, gráficos o ı́ndices que permiten cualidades de los elementos. Algunos ejemplos de es-
un análisis referido exclusivamente a los datos colec- tas variables son tipo de sangre, cuyas modalidades
cionados.

1
o categorı́as son: O, A, B, AB, estado civil, docu- Otros ejemplos son pérdida auditiva en decibeles y
mento de identificación, filiación polı́tica, tipo de re- coeficiente intelectual en puntaje.
ligión, raza, tipo de suelo,etc. Cuantitativas: aquellas
que generalmente resultan de un proceso de medición. Escala de razón:
Pueden ser discretas o continuas.
Es el nivel más alto de las escalas de mediciones y
se caracterı́za por el hecho de que se puede determi-
Discretas:
nar tanto la igualdad de razones como la de interva-
resultan de conteos y el resultado es un número los. Existe un punto cero único. Por ejemplo: altura,
entero. Ejemplos: Numero de hermanos, cuyas moda- peso, longitud, velocidad, área, volúmen.
lidades o categorı́as son: 0, 1, . . . , N , número de pa-
cientes que llegan a un centro de salud un intervalo de Formas de presentación y organización de
tiempo dado, número de sillas en un salón de clases, la información
número de horas que un estudiante dedica semanal-
mente a sus asignaturas. Existen dos formas básicas para la representación
de la información recolectada, a través de tablas o
cuadros estadı́sticos y a través de un gráfico.
Continuas:
el resultado es un subconjunto de los números Una tabla o cuadro estadı́stico es una representación
reales. Ej: Tiempo de espera en una parada de bus, en forma ordenada de la variación de un fenómeno,
velocidad de un vehiculo en una autopista, ingreso clasificado bajo uno o más variables. Puede ser simple
económico del jefe de hogar en una familia. (clasificación bajo una variable) o compuesto (clasi-
ficación bajo dos o más variables). A continuación se
1.2.4. Escalas de medición presenta una serie de términos relacionados para
tablas estadı́sticas
La medición hace referencia a la asignación de
números a las caracterı́sticas objeto de estudio.
Frecuencia absoluta ni

Escala nominal: Sea X una variable estadı́stica cuyos valores son


X1 , . . . , Xk ; de una muestra de tamaño n, (k ≤ n).
Es la más baja de las escalas de medición. Identifi- La frecuencia absoluta corresponde al número de ve-
ca las categorı́as de la variable de interés y se pueden ces que se repite cada valor de la variable.
diferenciar las categorı́as una de la otra haciendo uso
de dı́gitos. Ej: Estado civil (soltero - casado - viudo -
unión libre - separado), cédula de ciudadanı́a, género
musical, tipo de sangre, estado del paciente. Ejemplo 1. El número de vehı́culos que llegan a un
taller automotor en un dı́a dado, es una variable de
Escala ordinal: tipo estadı́stico que se observó durante un perı́odo de
25 dı́as y se obtivieron los siguientes datos:
Identifica las categorı́as de la variable y pueden
ser clasificadas por grados de acuerdo a algún crite- 8 6 7 9 8
rio. La función de los dı́gitos asignados a datos or- 7 8 10 4 10
8 7 9 8 7
dinales es la de ordenar. Ej: Grado de escolaridad 6 5 10 7 8
(ninguno - primaria - secundaria - profesional - post- 5 6 8 10 11
grado), rangos militares, grados de desnutrición, tipo
de quemadura. Se puede definir la variable X como: X : número
de vehı́culos que llegan al taller, Tipo: cuantitativa
discreta,
Escala de intervalos:
La escala de intervalos es una escala más especia-
lizada que la nominal y la ordinal, en el sentido de Ejemplo 2. Una encuesta realizada a 30 fumadores
que no solo es posible ordenar las mediciones, sino para determinar el número de cigarrillos que encien-
que también se conoce la distancia entre las observa- den (fuman) en un dia corriente arrojó los siguientes
ciones cualesquiera. Aquı́ no hay un punto cero único. resultados:
Ej: la escala en la que se mide la temperatura; no es
posible decir que 30◦ es doble de frio que 60◦ , ya que
depende de la escala (grados celsius o Fahrenheit).

2
Medidas descriptivas
Cuadro 1.1: Distibución de frecuencias para el núme-
ro de vehı́culos que llegan a un taller automotor en Son valores que caracterizan las observaciones de
un dı́a dado un conjunto de datos. Estas medidas de resumen pue-
Frec.
Valor
Frec. Frec. Frec. Abs.
Relativa
den ser de centralidad, dispersión o variabilidad, po-
Abs. Relativa. Acum. sición, asimetrı́a y apuntamiento
de Xi Acum.
ni hi Ni
Hi
4 1 0.04 1 0.04
Medidas de centralidad
5 2 0.08 3 0.12
6 3 0.12 6 0.24 Son valores que representan un valor central hacia
7 5 0.12 11 0.44
8 7 0.28 18 0.72
el cual tiene tendencia a concentrarse el conjunto de
9 2 0.08 20 0.80 datos.
10 4 0.16 24 0.96
11 1 0.04 25 1.00 Media aritmética Es la medida más utilizada en
Total 25 1 - -
un conjunto de datos, es un valor central que toma en
cuenta todos los valores que aparecen en el conjunto
3 7 5 10 8 4 de datos y las distancias relativas a estos valores. Los
5 8 10 8 8 4 valores tienen la misma importancia en el grupo de
5 3 10 5 7 10 datos.
8 5 5 12 8 4
4 3 5 8 12 10
Sean x1 , x2 . . . , xn los valores de una variable X,
Se puede definir la variable X como: X : número de de una muestra de tamaño n. La media aritmética x
cigarrillos que encienden un fumador, Tipo: cuanti- se define como:
tativa discreta, n
1 1�
Frec.
x = (x1 + x2 · · · + xn ) = xi
Frec. Frec. Frec. Abs. n n
Valor Relativa i=1
Abs. Relativa. Acum.
de Xi Acum. Ejemplo 5. Para los datos del ejemplo 1. La media
ni hi Ni
hi
3 3 0.100 3 0.100
aritmética es
4 4 0.133 7 0.233 1
5 7 0.233 14 0.467
x = (1 × 4 + 2 × 5 + · · · + 1 × 11) = 7,68
25
7 2 0.067 16 0.533
8 7 0.233 23 0.767
Ejemplo 6. Para los datos del ejemplo 3. La media
10 5 0.167 28 0.933 aritmética es
12 2 0.067 30 1.000 1
Total 25 1 - - x = (3 × 84,65 + 5 × 87,25 + · · · + 1 × 97,65) = 90,22
35
Ejemplo 3. A continuación se presentan los datos
sobre el octanaje del combustible para motores de va- Mediana Es la segunda medida más utilizada des-
rias marcas de gasolina pués de la media aritmética, y es útil para estimar el
centro de un conjunto de datos. La mediana es el ele-
88.5 89.8 89.9 90.6 93.4 90.7 90.1
94.7 91.6 98.8 92.2 96.1 88.6 89.3 mento central del conjunto de datos, es una medida
84.3 90.3 88.3 87.7 89.6 88.3 91.1 de posición y hay el mismo número de observaciones
90.1 90.0 90.4 91.1 90.4 94.2 83.4 a la derecha y a la izquierda del valor de la mediana.
89.0 91.5 91.2 86.7 91.6 85.3 93.2
Se puede definir la variable X como: X : octanaje La mediana se calcula como:
del combustible, Tipo: cuantitativa continua, Si la variable X tiene n valores diferentes,
Ejemplo 4. Los siguientes datos corresponden a un X1 , . . . , Xn , entonces la mediana se escribe como:
muestreo de ruido ambiental del nivel de presión so- 
nora (LP), medida en decibeles (dB) en diferentes  X( n+1
 2 )
, si n es impar;
estaciones de la ciudad de Cali durante el dı́a Me =
63.7 75.0 74.1 69.4 64.6 71.6  X( n ) +X( n +1)
, si n es par.
 2 2
66.9 76.3 73.7 76.5 60.5 72.1 2
66.8 75.0 71.0 57.3 65.1 62.3
75.3 77.4 56.1 71.6 55.3Moda Representa el valor o valores que tienen la
72.3
70.8 71.4 69.0 67.2 71.3 70.5
mayor frecuencia dentro del conjunto de datos. La
Se puede definir la variable X como: X : ruido moda puede o no existir; en el evento en que exista,
ambiental del nivel de presión sonora, Tipo: cuanti- puede no ser única, ya que una distribución puede
tativa continua eventualmente tener una o varias modas

3
1.2.5. Medidas de dispersión Desviación estándar Una de las limitaciones de
la varianza son sus unidades al cuadrado. Para supe-
Permiten generar criterios sobre el grado de ho-
rar esto se usa la raı́z cuadrada de la varianza, dando
mogeneidad o heterogeneidad del conjunto de datos
origen al concepto de desviación estándar.
que se está analizando, en relación con una medida
de centralidad, o con respecto a datos entre sı́. �
� n
�1 �
S=� (xi − x)2
Rango diferencia entre al valor máximo y el valor n
i=1
mı́nimo del conjunto de datos y mide la longitud en
la cual se encuentran los datos, en general a mayor Coeficiente de variación Permite estimar la re-
longitud mayor dispersión de los datos. lación porcentual entre el valor de la media y la des-
viación estándar. A medida que se presenta mayor
R = X(n) − X(1) heterogeneidad en el conjunto de datos, el valor del
coeficiente de variación es mayor
Varianza La varianza mide las variaciones del con-
junto de datos con respecto a su media aritmética y se S
CV = × 100 %
define comola media aritmética de los cuadrados de x
las desviaciones de cada dato a la media aritmética.
Si la variable X tiene n valores diferentes, x1 , x2 , . . . ,1.2.6.
xn , Medidas de posición
entonces la varianza se escribe como: Cuando se desea presentar un análisis con respec-
n to a la posición que ocupa la información que resulta
2 1� relevante, las medidas de posición son muy utiles.
S = (xi − x)2
n
i=1

La expresión anterior pueden ser alternativamente es- Las medidas de posición son valores que particionan
crita como: la población o muestra en varios puntos, dando una
� n � descripción más fina, puesto que dan más información
2 1 � 2 2
del comportamiento de los datos que las medidas de
S = xi − nx tendencia central (media aritmetica, mediana y mo-
n
i=1
da).
Propiedades de la varianza:
Estas medidas indican que porcentaje de datos den-
1. El valor de la varianza es siempre positivo o tro de una distribución de frecuencias superan estas
igual a cero, esto es S 2 ≥ 0, para cualquier expresiones (mitad, 3 partes, 5 partes, diez partes,
conjunto de datos. etc) y facilitan la información sobre la serie de datos
que estamos analizando. Entre las medidas de posi-
2. Si cada uno de los datos de la variable es cons- ción más utilizadas encontramos los cuartiles, deciles
tante, la varianza igual a cero, es decir, si X1 = y percentiles.
k, . . . , Xn = k, entonces
Definición 1. Cuartiles
n
1� Los cuartiles son tres valores que distribuyen la serie
(Xi − x)2 = 0
n de datos, ordenada de forma creciente o decrecien-
i=1
te en cuatro tramos iguales, en los que cada uno de
3. Si cada uno de los datos de una variable es ellos concentra el 25 % de las observaciones. Estos
afectado aditivamante (negativamente) por una valores on denotados por Q1 , Q2 , Q3 y establecen las
constante k, la varianza de la nueva variable es siguientes convenciones:
igual a la varianza de la variable original. Es de- Q1 := es aquel valor que supera al 25 % de los
cir, si Yi = Xi ∓ k, para i = 1, 2, . . . , n entonces datos y es superado por el 75 % restante.
Sy2 = Sx2
Q2 := supera y es superado por el 50 % de los
4. Si cada uno de los datos de una variable es datos.
afectado multiplicativamente por una constan-
te k, la varianza de la nueva variable es igual Q3 := supera al 75 % y es superado por el 25 %
al cuadrado de la constante por la varianza de de los datos restantes.
la variable original. Es decir, si Yi = kXi , para
i = 1, . . . , n entonces y = kx. Definición 2. Deciles
Los deciles son nueve valores que distribuyen la serie

4
de datos, ordenada de forma creciente o decreciente 2200 2345 2350 2380 2415
en diez tramos iguales, en los que cada uno de ellos 2434 2436 2437 2443 2464
concentra el 10 % de las observaciones. 2472 2491 2505 2536 2536
2536 2550 2556 2571 2573
Definición 3. Percentiles 2577 2580 2617 2652 2851
Los percentiles son noventa y nueve valores que dis-
tribuyen la serie de datos, ordenada de forma cre- Como el número de datos es impar la mediana
ciente o decreciente en cien tramos iguales, en los es la observación que se encuentra en la posición
que cada uno de ellos concentra el 1 % de las obser- n/2, esto es, xn/2 = x12,5 ≈ x13 = 2491 y la ob-
vaciones. servación que se presenta con mayor frecuencia
es 2536 kilogramos.
De forma general se tiene que, el 100k−ésimo per-
centil 0 < k < 1, denotado por pk , es un valor tal que Para determinar las medidas de dispersión, co-
al menos el 100k % de las observaciones son menores menzamos determinando la varianza utilizando
o iguales que él y al menos el 100(1 − k) % son ma- la siguiente expresión alterna
yores o iguales que él.
� n �
2 1 �
2 2
Para calcular el percentil 100k % se procede de la si- S = xi − nx
n−1
guiente forma: i=1

1. Ordene los datos en forma creciente, es decir, � 25 �


de menor a mayor. 1 �
S2 = x2i − 25x2
25 − 1
i=1
2. Calcule nk, donde n es el número de datos � 25 �
1 � 2 2
a) Si nk no es entero aproxı́melo al entero = xi − 25(2498,4)
24
i=1
siguiente y esa es la posición del percentil
1
100k %. = (156417048 − 156050064)
24
b) Si nk es entero, el percentil 100k % se ob- 1
tiene promediando las observaciones que = (366984)
24
ocupan los lugares nk y nk + 1. = 15291
Ejemplo 7. Los datos que se muestran a continua- la desviación estándar se obtiene al extraer la
ción corresponden a el peso (en kilogramos) de 25 raı́z cuadrada de la varianza, de donde se sigue
niños al momento de nacer que √
S = S 2 = 123,6567
2536 2505 2652 2573 2380
2443 2617 2556 2489 2415 y posteriormente calculamos el coeficiente de
2434 2491 2345 2350 2536 variación para determinar que tan homogenea
2577 2464 2571 2550 2437 o heterogenea es la distribución de los datos,
2472 2580 2436 2200 2851 S 123,6567
CV = ∗ 100 % = ∗ 100 % = 4,949 %
Para los datos anteriores, se procede a calcular las x 2498,4
medidas de tendencia central, de dispersión y de po- Medidas de posición
sición.
• Para obtener el primer cuartil Q1 , deter-
Primero determinamos el valor mı́nimo y máxi-
minamos el valor de la observación que se
mo de las observaciones registradas, basada en
encuentra en la posición (n = 25)(k =
la tabla anterior, xmin = 2200 y xmin = 2851
0,25) = 6,25 ≈ 7, por tanto Q1 = 2436.
La media aritmetica está dada por:
• Para obtener el segundo cuartil Q2 , de-
25 terminamos el valor de la observación que
1 � 1
x= xi = (62460) = 2498,4 se encuentra en la posición (n = 25)(k =
25 25
i=1
0,50) = 12,5 ≈ 13, por tanto Q2 = 2491.
para determinar la mediana y las medidas de • Para obtener el tercer cuartil Q3 , determi-
posición debemos organizar los datos en forma namos el valor de la observación que se
creciente, los cuales se presentan a continua- encuentra en la posición (n = 25)(k =
ción: 0,75) = 18,5 ≈ 19, por tanto Q3 = 2571.

5
1.3. Ejercicios Método 1
20.7 29.0 46.1 44.8
1. Se realizó un estudio para determinar la eficacia 31.2 20.3 56.6 39.7
de la vacuna BCG (bacillus-Calmette-Guerı́n) 24.9 20.9 28.8 22.8
realizaron un estudio para prevenir la meningi- 22.9 34.4 33.9 46.1
tis tuberculosa. Entre los datos recolectados e 52.4 28.5 35.5 45.3
cada individuo está la medición del estado nu- 26.9 30.1 35.0 54.7
tricional (peso expresado como porcentaje del 38.3 28.4 22.5 22.1
peso esperado para cada estatura real). La si-
guiente tabla muestra los valores: Método 2
73.3 80.5 50.4 50.9 23.9 23.2 56.2 30.2 27.2 21.8
64.8 74.0 72.8 72.0 53.7 31.6 24.6 49.8 22.6 48.9
59.7 90.0 76.9 71.4 23.1 34.6 24.2 23.7 56.2 24.6
45.6 77.5 60.6 67.5 41.3 21.1 35.7 30.2 49.8 34.1
54.6 71.0 66.0 71.0 40.7 29.2 27.2 22.6 26.7 39.8
82.6 70.5 27.4 21.8 48.9 20.1 21.4 23.2
2. Se efectuó un estudio para investigar si la au-
5. Como parte de un proyecto de investigación,
totransfusión de sangre extraida del mediastino
los investigadores obtuvieron los siguientes da-
podia reducir el numero de pacientes que nece-
tos sobre los niveles sericos de peróxido lı́pido
sitaba transfusiones de sangre homologa y redu-
(SLP, por las siglas en ingles de serum lipid
cir la cantidad de sangre homó1oga transfundi-
peroxide), a partir de los informes de labora-
da utilizando criterios de transfusion fijos. La
torio de una muestra de 10 individuos adultos
siguiente tabla muestra las estaturas en centi-
que recibı́an tratamiento para la diabetes me-
metros de varios individuos
llitus: 5.85, 6.17, 6.09, 7.70, 3.17, 3.83, 5.17,
1.720 1.710 1.700 1.655 4.31,3.09,5.24. Calcule la media, mediana, va-
1.730 1.700 1.820 1.810 riancia y desviaci6n estandar.
1.800 1.800 1.790 1.820 6. Los siguientes valores corresponden a los nive-
1.680 1.730 1.820 1.720 les de SLP que se obtuvieron de una muestra
1.790 1.880 1.730 1.560 de 10 adultos aparentemente sanos: 4.07, 2.71,
3.64, 3.37, 3.84, 3.83, 3.82,4.21,4.04,4.50. Calcu-
3. Realizaron un estudio para investigar las carac-
le para estos datos la media, mediana, varianza
teristicas de unión de la imipramina a las pla-
y desviación estandar. Compare los resultados
quetas en pacientes maniacos y comparar los
con los del ejercicio anterior. ¿Qué es 10 que su-
resultados con datos equivalentes de personas
gieren estos resultados con respecto a los nive-
sanas y pacientes depresivos. Como parte del
les de SLP entre los pacientes con y sin diabetes
estudio, los investigadores obtuvieron los valo-
mellitus? ¿Estos resultados proveen suficientes
res máximos de unión a la molecula receptora
bases para tomar acci6n medica? Explique su
en estos individuos. Los siguientes valores son
respuesta.
de individuos estudiados que fueron diagnosti-
cados con depresión unipolar. Una forma util de representar la variabilidad de
los datos es de manera gráfica, utilizando el diagrama
1074 797 485 334 de cajas o box plot, el cual se construye a partir de
670 510 299 333 los cuartiles.
303 372 473 797
385 769 768 392 Definición 4. Diagrama de caja y bigotes.
475 319 301 556 Este tipo de gráfico también llamado box and whisker
300 339 488 306 plot, o simplemente box plot, facilita la lectura so-
1113 761 571 306 bre localización, variabilidad, simetrı́a y presencia de
datos atı́picos (outliers según la literatura estadı́stica
4. Se compararon dos métodos para colectar san- inglesa). El box plot consiste en una caja y guiones
gre para estudios de coagulación. Los siguien con una linea a través de la caja que representa la me-
tes valores son el tiempo parcial de tromboplas- diana (segundo cuartil Q2 ). El extremo inferior de la
tina activada (APTT, siglas en Ingles), de 30 caja es el primer cuartil Q1 y el superior es el ter-
pacientes en cada uno de los dos grupos. cer cuartil Q3 . El bigote superior se extiende desde el

6
tercer cuartil hasta la observación más grande que es
menor o igual que Q3 + 1,5x(Q3 − Q1 ). El bigote in-
ferior se extiende hasta la observación más pequeña
que es mayor o igual que Q1 − 1,5x(Q3 − Q1 ). Las
observaciones que están por fuera de estos lı́mites se
clasifican como datos atı́picos y se ubican en el dia-
grama.

Para construir el diagrama de caja siga los siguientes


pasos:

Dibujar y marcar un eje de medida vertical (eje


de coordenadas).

Construir un rectángulo cuyo borde inferior se


ubica en el cuartil inferior (Q1 ) y cuyo borde
superior se ubica en el cuartil superior (Q3 ).

Dibujar un segmento de recta horizontal dentro


de la caja justo en el segundo cuartil (mediana).

Prolongar una recta (el bigote) desde el extremo


superior de la caja hasta la observación más
grande que es menor o igual que Q3 +1,5x(Q3 −
Q1 ).

Prolongar una recta (el otro bigote) desde el


extremo inferior de la caja hasta la observa-
ción más pequeña que es mayor o igual que
Q1 − 1,5 × (Q3 − Q1 )

Box−plots comparativos para los egresos presentados en Abril del 2012


8
Número de egresos

6
4
2

Medicina Interna

También podría gustarte