Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
o categorı́as son: O, A, B, AB, estado civil, docu- Otros ejemplos son pérdida auditiva en decibeles y
mento de identificación, filiación polı́tica, tipo de re- coeficiente intelectual en puntaje.
ligión, raza, tipo de suelo,etc. Cuantitativas: aquellas
que generalmente resultan de un proceso de medición. Escala de razón:
Pueden ser discretas o continuas.
Es el nivel más alto de las escalas de mediciones y
se caracterı́za por el hecho de que se puede determi-
Discretas:
nar tanto la igualdad de razones como la de interva-
resultan de conteos y el resultado es un número los. Existe un punto cero único. Por ejemplo: altura,
entero. Ejemplos: Numero de hermanos, cuyas moda- peso, longitud, velocidad, área, volúmen.
lidades o categorı́as son: 0, 1, . . . , N , número de pa-
cientes que llegan a un centro de salud un intervalo de Formas de presentación y organización de
tiempo dado, número de sillas en un salón de clases, la información
número de horas que un estudiante dedica semanal-
mente a sus asignaturas. Existen dos formas básicas para la representación
de la información recolectada, a través de tablas o
cuadros estadı́sticos y a través de un gráfico.
Continuas:
el resultado es un subconjunto de los números Una tabla o cuadro estadı́stico es una representación
reales. Ej: Tiempo de espera en una parada de bus, en forma ordenada de la variación de un fenómeno,
velocidad de un vehiculo en una autopista, ingreso clasificado bajo uno o más variables. Puede ser simple
económico del jefe de hogar en una familia. (clasificación bajo una variable) o compuesto (clasi-
ficación bajo dos o más variables). A continuación se
1.2.4. Escalas de medición presenta una serie de términos relacionados para
tablas estadı́sticas
La medición hace referencia a la asignación de
números a las caracterı́sticas objeto de estudio.
Frecuencia absoluta ni
2
Medidas descriptivas
Cuadro 1.1: Distibución de frecuencias para el núme-
ro de vehı́culos que llegan a un taller automotor en Son valores que caracterizan las observaciones de
un dı́a dado un conjunto de datos. Estas medidas de resumen pue-
Frec.
Valor
Frec. Frec. Frec. Abs.
Relativa
den ser de centralidad, dispersión o variabilidad, po-
Abs. Relativa. Acum. sición, asimetrı́a y apuntamiento
de Xi Acum.
ni hi Ni
Hi
4 1 0.04 1 0.04
Medidas de centralidad
5 2 0.08 3 0.12
6 3 0.12 6 0.24 Son valores que representan un valor central hacia
7 5 0.12 11 0.44
8 7 0.28 18 0.72
el cual tiene tendencia a concentrarse el conjunto de
9 2 0.08 20 0.80 datos.
10 4 0.16 24 0.96
11 1 0.04 25 1.00 Media aritmética Es la medida más utilizada en
Total 25 1 - -
un conjunto de datos, es un valor central que toma en
cuenta todos los valores que aparecen en el conjunto
3 7 5 10 8 4 de datos y las distancias relativas a estos valores. Los
5 8 10 8 8 4 valores tienen la misma importancia en el grupo de
5 3 10 5 7 10 datos.
8 5 5 12 8 4
4 3 5 8 12 10
Sean x1 , x2 . . . , xn los valores de una variable X,
Se puede definir la variable X como: X : número de de una muestra de tamaño n. La media aritmética x
cigarrillos que encienden un fumador, Tipo: cuanti- se define como:
tativa discreta, n
1 1�
Frec.
x = (x1 + x2 · · · + xn ) = xi
Frec. Frec. Frec. Abs. n n
Valor Relativa i=1
Abs. Relativa. Acum.
de Xi Acum. Ejemplo 5. Para los datos del ejemplo 1. La media
ni hi Ni
hi
3 3 0.100 3 0.100
aritmética es
4 4 0.133 7 0.233 1
5 7 0.233 14 0.467
x = (1 × 4 + 2 × 5 + · · · + 1 × 11) = 7,68
25
7 2 0.067 16 0.533
8 7 0.233 23 0.767
Ejemplo 6. Para los datos del ejemplo 3. La media
10 5 0.167 28 0.933 aritmética es
12 2 0.067 30 1.000 1
Total 25 1 - - x = (3 × 84,65 + 5 × 87,25 + · · · + 1 × 97,65) = 90,22
35
Ejemplo 3. A continuación se presentan los datos
sobre el octanaje del combustible para motores de va- Mediana Es la segunda medida más utilizada des-
rias marcas de gasolina pués de la media aritmética, y es útil para estimar el
centro de un conjunto de datos. La mediana es el ele-
88.5 89.8 89.9 90.6 93.4 90.7 90.1
94.7 91.6 98.8 92.2 96.1 88.6 89.3 mento central del conjunto de datos, es una medida
84.3 90.3 88.3 87.7 89.6 88.3 91.1 de posición y hay el mismo número de observaciones
90.1 90.0 90.4 91.1 90.4 94.2 83.4 a la derecha y a la izquierda del valor de la mediana.
89.0 91.5 91.2 86.7 91.6 85.3 93.2
Se puede definir la variable X como: X : octanaje La mediana se calcula como:
del combustible, Tipo: cuantitativa continua, Si la variable X tiene n valores diferentes,
Ejemplo 4. Los siguientes datos corresponden a un X1 , . . . , Xn , entonces la mediana se escribe como:
muestreo de ruido ambiental del nivel de presión so-
nora (LP), medida en decibeles (dB) en diferentes X( n+1
2 )
, si n es impar;
estaciones de la ciudad de Cali durante el dı́a Me =
63.7 75.0 74.1 69.4 64.6 71.6 X( n ) +X( n +1)
, si n es par.
2 2
66.9 76.3 73.7 76.5 60.5 72.1 2
66.8 75.0 71.0 57.3 65.1 62.3
75.3 77.4 56.1 71.6 55.3Moda Representa el valor o valores que tienen la
72.3
70.8 71.4 69.0 67.2 71.3 70.5
mayor frecuencia dentro del conjunto de datos. La
Se puede definir la variable X como: X : ruido moda puede o no existir; en el evento en que exista,
ambiental del nivel de presión sonora, Tipo: cuanti- puede no ser única, ya que una distribución puede
tativa continua eventualmente tener una o varias modas
3
1.2.5. Medidas de dispersión Desviación estándar Una de las limitaciones de
la varianza son sus unidades al cuadrado. Para supe-
Permiten generar criterios sobre el grado de ho-
rar esto se usa la raı́z cuadrada de la varianza, dando
mogeneidad o heterogeneidad del conjunto de datos
origen al concepto de desviación estándar.
que se está analizando, en relación con una medida
de centralidad, o con respecto a datos entre sı́. �
� n
�1 �
S=� (xi − x)2
Rango diferencia entre al valor máximo y el valor n
i=1
mı́nimo del conjunto de datos y mide la longitud en
la cual se encuentran los datos, en general a mayor Coeficiente de variación Permite estimar la re-
longitud mayor dispersión de los datos. lación porcentual entre el valor de la media y la des-
viación estándar. A medida que se presenta mayor
R = X(n) − X(1) heterogeneidad en el conjunto de datos, el valor del
coeficiente de variación es mayor
Varianza La varianza mide las variaciones del con-
junto de datos con respecto a su media aritmética y se S
CV = × 100 %
define comola media aritmética de los cuadrados de x
las desviaciones de cada dato a la media aritmética.
Si la variable X tiene n valores diferentes, x1 , x2 , . . . ,1.2.6.
xn , Medidas de posición
entonces la varianza se escribe como: Cuando se desea presentar un análisis con respec-
n to a la posición que ocupa la información que resulta
2 1� relevante, las medidas de posición son muy utiles.
S = (xi − x)2
n
i=1
La expresión anterior pueden ser alternativamente es- Las medidas de posición son valores que particionan
crita como: la población o muestra en varios puntos, dando una
� n � descripción más fina, puesto que dan más información
2 1 � 2 2
del comportamiento de los datos que las medidas de
S = xi − nx tendencia central (media aritmetica, mediana y mo-
n
i=1
da).
Propiedades de la varianza:
Estas medidas indican que porcentaje de datos den-
1. El valor de la varianza es siempre positivo o tro de una distribución de frecuencias superan estas
igual a cero, esto es S 2 ≥ 0, para cualquier expresiones (mitad, 3 partes, 5 partes, diez partes,
conjunto de datos. etc) y facilitan la información sobre la serie de datos
que estamos analizando. Entre las medidas de posi-
2. Si cada uno de los datos de la variable es cons- ción más utilizadas encontramos los cuartiles, deciles
tante, la varianza igual a cero, es decir, si X1 = y percentiles.
k, . . . , Xn = k, entonces
Definición 1. Cuartiles
n
1� Los cuartiles son tres valores que distribuyen la serie
(Xi − x)2 = 0
n de datos, ordenada de forma creciente o decrecien-
i=1
te en cuatro tramos iguales, en los que cada uno de
3. Si cada uno de los datos de una variable es ellos concentra el 25 % de las observaciones. Estos
afectado aditivamante (negativamente) por una valores on denotados por Q1 , Q2 , Q3 y establecen las
constante k, la varianza de la nueva variable es siguientes convenciones:
igual a la varianza de la variable original. Es de- Q1 := es aquel valor que supera al 25 % de los
cir, si Yi = Xi ∓ k, para i = 1, 2, . . . , n entonces datos y es superado por el 75 % restante.
Sy2 = Sx2
Q2 := supera y es superado por el 50 % de los
4. Si cada uno de los datos de una variable es datos.
afectado multiplicativamente por una constan-
te k, la varianza de la nueva variable es igual Q3 := supera al 75 % y es superado por el 25 %
al cuadrado de la constante por la varianza de de los datos restantes.
la variable original. Es decir, si Yi = kXi , para
i = 1, . . . , n entonces y = kx. Definición 2. Deciles
Los deciles son nueve valores que distribuyen la serie
4
de datos, ordenada de forma creciente o decreciente 2200 2345 2350 2380 2415
en diez tramos iguales, en los que cada uno de ellos 2434 2436 2437 2443 2464
concentra el 10 % de las observaciones. 2472 2491 2505 2536 2536
2536 2550 2556 2571 2573
Definición 3. Percentiles 2577 2580 2617 2652 2851
Los percentiles son noventa y nueve valores que dis-
tribuyen la serie de datos, ordenada de forma cre- Como el número de datos es impar la mediana
ciente o decreciente en cien tramos iguales, en los es la observación que se encuentra en la posición
que cada uno de ellos concentra el 1 % de las obser- n/2, esto es, xn/2 = x12,5 ≈ x13 = 2491 y la ob-
vaciones. servación que se presenta con mayor frecuencia
es 2536 kilogramos.
De forma general se tiene que, el 100k−ésimo per-
centil 0 < k < 1, denotado por pk , es un valor tal que Para determinar las medidas de dispersión, co-
al menos el 100k % de las observaciones son menores menzamos determinando la varianza utilizando
o iguales que él y al menos el 100(1 − k) % son ma- la siguiente expresión alterna
yores o iguales que él.
� n �
2 1 �
2 2
Para calcular el percentil 100k % se procede de la si- S = xi − nx
n−1
guiente forma: i=1
5
1.3. Ejercicios Método 1
20.7 29.0 46.1 44.8
1. Se realizó un estudio para determinar la eficacia 31.2 20.3 56.6 39.7
de la vacuna BCG (bacillus-Calmette-Guerı́n) 24.9 20.9 28.8 22.8
realizaron un estudio para prevenir la meningi- 22.9 34.4 33.9 46.1
tis tuberculosa. Entre los datos recolectados e 52.4 28.5 35.5 45.3
cada individuo está la medición del estado nu- 26.9 30.1 35.0 54.7
tricional (peso expresado como porcentaje del 38.3 28.4 22.5 22.1
peso esperado para cada estatura real). La si-
guiente tabla muestra los valores: Método 2
73.3 80.5 50.4 50.9 23.9 23.2 56.2 30.2 27.2 21.8
64.8 74.0 72.8 72.0 53.7 31.6 24.6 49.8 22.6 48.9
59.7 90.0 76.9 71.4 23.1 34.6 24.2 23.7 56.2 24.6
45.6 77.5 60.6 67.5 41.3 21.1 35.7 30.2 49.8 34.1
54.6 71.0 66.0 71.0 40.7 29.2 27.2 22.6 26.7 39.8
82.6 70.5 27.4 21.8 48.9 20.1 21.4 23.2
2. Se efectuó un estudio para investigar si la au-
5. Como parte de un proyecto de investigación,
totransfusión de sangre extraida del mediastino
los investigadores obtuvieron los siguientes da-
podia reducir el numero de pacientes que nece-
tos sobre los niveles sericos de peróxido lı́pido
sitaba transfusiones de sangre homologa y redu-
(SLP, por las siglas en ingles de serum lipid
cir la cantidad de sangre homó1oga transfundi-
peroxide), a partir de los informes de labora-
da utilizando criterios de transfusion fijos. La
torio de una muestra de 10 individuos adultos
siguiente tabla muestra las estaturas en centi-
que recibı́an tratamiento para la diabetes me-
metros de varios individuos
llitus: 5.85, 6.17, 6.09, 7.70, 3.17, 3.83, 5.17,
1.720 1.710 1.700 1.655 4.31,3.09,5.24. Calcule la media, mediana, va-
1.730 1.700 1.820 1.810 riancia y desviaci6n estandar.
1.800 1.800 1.790 1.820 6. Los siguientes valores corresponden a los nive-
1.680 1.730 1.820 1.720 les de SLP que se obtuvieron de una muestra
1.790 1.880 1.730 1.560 de 10 adultos aparentemente sanos: 4.07, 2.71,
3.64, 3.37, 3.84, 3.83, 3.82,4.21,4.04,4.50. Calcu-
3. Realizaron un estudio para investigar las carac-
le para estos datos la media, mediana, varianza
teristicas de unión de la imipramina a las pla-
y desviación estandar. Compare los resultados
quetas en pacientes maniacos y comparar los
con los del ejercicio anterior. ¿Qué es 10 que su-
resultados con datos equivalentes de personas
gieren estos resultados con respecto a los nive-
sanas y pacientes depresivos. Como parte del
les de SLP entre los pacientes con y sin diabetes
estudio, los investigadores obtuvieron los valo-
mellitus? ¿Estos resultados proveen suficientes
res máximos de unión a la molecula receptora
bases para tomar acci6n medica? Explique su
en estos individuos. Los siguientes valores son
respuesta.
de individuos estudiados que fueron diagnosti-
cados con depresión unipolar. Una forma util de representar la variabilidad de
los datos es de manera gráfica, utilizando el diagrama
1074 797 485 334 de cajas o box plot, el cual se construye a partir de
670 510 299 333 los cuartiles.
303 372 473 797
385 769 768 392 Definición 4. Diagrama de caja y bigotes.
475 319 301 556 Este tipo de gráfico también llamado box and whisker
300 339 488 306 plot, o simplemente box plot, facilita la lectura so-
1113 761 571 306 bre localización, variabilidad, simetrı́a y presencia de
datos atı́picos (outliers según la literatura estadı́stica
4. Se compararon dos métodos para colectar san- inglesa). El box plot consiste en una caja y guiones
gre para estudios de coagulación. Los siguien con una linea a través de la caja que representa la me-
tes valores son el tiempo parcial de tromboplas- diana (segundo cuartil Q2 ). El extremo inferior de la
tina activada (APTT, siglas en Ingles), de 30 caja es el primer cuartil Q1 y el superior es el ter-
pacientes en cada uno de los dos grupos. cer cuartil Q3 . El bigote superior se extiende desde el
6
tercer cuartil hasta la observación más grande que es
menor o igual que Q3 + 1,5x(Q3 − Q1 ). El bigote in-
ferior se extiende hasta la observación más pequeña
que es mayor o igual que Q1 − 1,5x(Q3 − Q1 ). Las
observaciones que están por fuera de estos lı́mites se
clasifican como datos atı́picos y se ubican en el dia-
grama.
6
4
2
Medicina Interna