Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADíSTICA DESCRIPTIVA
En este capítulo trataremos las distribuciones de frecuencias para los datos
cualitativos y cuantitativos. Se explicarán los tipos de gráficos según el tipo de variable.
Luego seguiremos con las medidas de tendencia central y las medidas de variabilidad
para datos agrupados y no agrupados. Al final se presentarán los ejercicios que
corresponden a los temas tratados.
En secciones anteriores habíamos dicho que existen tres tipos de datos o
variables. Se pueden construir tablas para datos cualitativos, para datos cuantitativos
discretos y para datos cuantitativos continuos. Sin embargo, una tabla puede contener
un solo tipo de variable, o puede tener dos o los tres tipos de variables.
Tabla 2-1
DISTRIBUCIÓN DE LOS ESTUDIANTES DE CIENCIAS DE LA SALUD
EN UNA UNIVERSIDAD
Carrera Frecuencia Frecuenci Porcentaje Frecuencia Relativa
Absoluta a (%) Acumulada
Relativa
Medicina 200 0.29 29 0.29
Bioanalisis 150 0.21 21 0.50
Farmacia 130 0.19 19 0.69
Enfermerí 120 0.17 17 0.86
a
Veterinaria 100 0.14 14 1.00
Total 700 1.00 100
DISTRIBUCIÓN DE FRECUENCIA PARA VARIABLES CUANTITATIVAS
DISCRETAS
La siguiente tabla corresponde a la distribución de frecuencia del número
de créditos que tomaron 150 estudiantes de medicina. La primera columna
corresponde a la variable cuantitativa discreta, que es el número de créditos
seleccionado por los estudiantes, presentado en rangos de valores. La segunda
columna es la frecuencia absoluta, es decir, es el número total de estudiantes que
tomaron alguno de los rangos de valores presentados en la primera columna. Las
demás columnas corresponden a la frecuencia relativa, el porcentaje y la frecuencia
relativa acumulada.
Tabla 2-2
NÚMERO DE CRÉDITOS SELECCIONADOS POR 150 ESTUDIANTES DE
MEDICINA EN UNA UNIVERSIDAD
Número de Frecuencia Frecuencia Porcentaje Frecuencia
Créditos Absoluta Relativa (%) Relativa
Seleccionados Acumulada
<15 10 0.07 7 0.07
15-19 15 0.10 10 0.17
20-24 40 0.27 27 0.44
25-29 50 0.33 33 0.77
≥30 35 0.23 23 1.00
TOTAL 150 1.00 100
120 109 149 118 133 129 137 137 163 96 179 148
87 109 176 174 257 143 126 181 245 181 200 157
219 159 171 153 141 198 193 124 220 195 124 133
103 165 176 182 187 225 147 202 163 172 158 174
165 158 146 189 151 70 209 118 97 161 91 150
158 161 64 207 151 172 115 175 254 119 189 142
148 154 126 161 149 173 182 205 133 121 152 220
165 182 204 103 188 154 116 126 144 183 120 156
219 217 194 61
196
Amplitud de Clase= =24.5
8
Tabla 2-4
MÉTODO DE LOS PALOTES
61-85 ///-3
86-110 /////-///-8
111-135 /////-/////-/////-//-17
136-160 /////-/////-/////-/////-/////-25
161-185 /////-/////-/////-/////-////-24
186-210 /////-/////-////-14
211-235 /////-/-6
236-260 ///-3
HISTOGRAMA
El histograma es uno de los gráficos más utilizados en las publicaciones
científicas, especialmente en el campo de la epidemiología. Se elige cuando se grafica
una variable cuantitativa continua. El histograma se construye colocando, en el eje
vertical, la frecuencia absoluta o la frecuencia relativa. En el eje horizontal se coloca el
punto medio y los limites reales de clase. Una característica de los histogramas es que
las barras se tocan. Como las barras de los histogramas deben tocarse, las barras
deben comenzar y terminar con los Límites Reales de Clases. Se llaman Limites
Reales a los números que separan las clases sin dejar huecos.
Con los datos de la Tabla 2-5 construiremos un histograma de punto medio y
con límites reales de clase. En esta tabla se presentan los intervalos de clase, la
frecuencia absoluta y la frecuencia relativa.
TABLA 2-5
INTERVALOS, FRECUENCIA Y PUNTO MEDIO
INTERVALOS FRECUENCIA FRECUENCIA
ABSOLUTA RELATIVA
18-26 3 0.075
27-35 5 0.125
36-44 9 0.225
45-53 12 0.300
54-62 5 0.125
63-71 4 0.100
72-80 2 0.050
TOTAL 40 1.000
La Tabla 2-6 presenta, en la primera columna, los limites reales de clase y en la
última columna el punto medio o marca de clase. Los límites reales de clase se
obtuvieron restando 0.5 a límite inferior de cada intervalo y sumando 0.5 al límite
superior. El punto medio es el promedio del límite inferior y el inferior en cada intervalo.
TABLA 2-6
INTERVALOS, FRECUENCIA Y PUNTO MEDIO
LIMITES REALES DE FRECUENCIA FRECUENCIA PUNTO MEDIO
CLASE(INTERVALOS AGSOLUTA RELATIVA
)
17.5-26.5 3 0.075 22
26.5-35.5 5 0.125 31
35.5-44.5 9 0.225 40
44.5-53.5 12 0.300 49
53.5-62.5 5 0.125 58
62.5-71.5 4 0.100 67
71.5-80.5 2 0.050 76
TOTAL 40 1.000
FIGURA. 2-1
POLÍGONO DE FRECUENCIA
El polígono de frecuencia se ha diseñado especialmente para los datos
cuantitativos. Puede hacerse con datos cuantitativos discretos y continuos. Se
construye colocando un punto en la parte superior y media de las columnas del
histograma y uniéndolos mediante una línea recta. En el eje horizontal se colocan los
puntos medios de los intervalos y en el eje vertical se colocan las frecuencias. También
los polígonos pueden ser de frecuencias absolutas y de frecuencias relativas. El
siguiente es un polígono de frecuencia absoluta y de punto de medio. Fue construido
con la siguiente tabla:
TABLA 2-6
LIMITES REALES DE FRECUENCIA PUNTO MEDIO
CLASE
10.5-17.5 2 14
17.5-24,5 5 21
24.5-31.5 7 28
31.5-38.5 16 35
38.5-45.5 10 42
45.5-52.5 8 49
52.5-59.5 1 56
59.5-66.5 1 63
FIG. 2-2
GRÁFICO DE TALLO Y HOJA
El gráfico de Tallo y Hoja, al igual que el histograma, es útil para el análisis
exploratorio de datos y fue desarrollado por John Tukey en el año 1977. Este gráfico es
muy parecido y tiene la forma de un histograma, pero tiene la ventaja que conserva los
números originales. Cada uno de los números de la serie es clasificado como tallo (que
es el número que está más a la izquierda) o como hoja (que son los números que están
a la derecha de las entradas). Identifique el número menor y el mayor. Si la serie
contiene números de dos dígitos, entonces el numero de la izquierda es el tallo o la
entrada que va desde 1 hasta 9. Si la serie tiene números de tres dígitos, entonces el
tallo o la entrada tiene dos dígitos y se colocan a la izquierda, los demás números son
hojas. Veamos el siguiente ejemplo:
44 45 49 50 52 53 53 54 54 56 57 57
57 58 61 62 62 63 64 67 68 69 70 71
71 72 73 74 74 75 76 76 78 79 80 81
83 85
FIGURA 2-3
GRÁFICO CIRCULAR
Queremos construir un gráfico de pastel que represente la distribución de los
gastos en una familia cuyos ingresos mensuales son de $40,000. El primer paso es
hacer una tabla de distribución de los gastos. Luego se determina que porción del
gasto total corresponde a la alimentación, al pago de la casa, al pago de la luz y otros
gastos. Estas porciones son las frecuencias relativas. Como sabemos que una
circunferencia tiene 360 grados asignamos a cada componente del gasto la parte de la
circunferencia que le corresponde. Esto se logra mediante una regla de tres,
multiplicando la frecuencia relativa por 360.
TABLA 2-7
DISTRIBUCIÓN DE LOS GASTOS EN UNA FAMILIA
Tipo de gastos Frecuencia Frecuencia Angulo
Absoluta Relativa
Alimentación 16,000 0.40 144
Casa 12,000 0.30 108
Luz 4,000 0.10 36
Otros 8,000 0.20 72
Total 40,000 1.000 360
FIGURA 2-4
Los segmentos del pastel son los ángulos que corresponden a cada tipo de
gasto familiar, expresado en porcentaje.
DIAGRAMA DE DISPERSIÓN
Cuando se tiene datos pareados y se desea saber si hay algún tipo de relación
entre ellos, usamos el diagrama de dispersión. Usualmente la variable que se supone
independiente se coloca en el eje horizontal(X) y la variable dependiente en el eje
vertical (Y). El diagrama de dispersión sirve para la exploración inicial de la relación
entre dos variables y se pueden dar varias situaciones:
1. Correlación positiva, cuando el aumento de X se acompaña del aumento de
Y, sugiriendo una línea ascendente positiva
2. Correlación negativa, cuando el aumento de X se acompaña de disminución
de Y, sugiriendo una correlación inversa
3. Ausencia de correlación, cuando no hay relación entre los valores de X y los
valores de Y
El siguiente ejemplo indica una correlación positiva, porque el aumento de X se
acompaña de aumento de Y, de forma que se puede trazar una recta entre los pares de
valores
FIGURA 2-5
Datos desordenados
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
Datos ordenados
20 23 24 24 24 25 29 31 31 33
34 36 36 37 39 39 40 40 41 45
FIGURA 2-6
La interpretación de este diagrama nos dice que la parte izquierda (verde) de la
caja es mayor que la derecha, indicando que las edades comprendidas entre el 25% y
el 50% de la población está más dispersa, que la población que está entre el 50% y el
75%.
Además, el bigote de la izquierda, desde el valor mínimo hasta Q 1 es más corto
que el bigote de la derecha, porque el 25% de los más jóvenes están más
concentrados que el 25% de los mayores. El rango intercuartilico que es la diferencia
entre Q3 y Q1 es 14.5. Esto significa que el 50% de la población se encuentra entre 24,5
años y 39 años.
MEDIA
La media o media aritmética se define como el total de todas las observaciones
dividido entre el número de observaciones realizadas. Si designamos cada observación
con una x y el número de observaciones con una n, y usamos el símbolo de sumatoria,
podemos escribir:
Media=
∑x
n
Ejemplo No. 1
Calcule la media aritmética de la siguiente serie numérica. Primero escriba la
fórmula y luego desarrolle la solución.
2, 4, 6, 8, 10, 12
Solución
Media=
∑x
n
2+4 +6+8+10+ 12
Media= =7
6
MEDIANA
La mediana de una serie numérica es el valor equidistante de los extremos, es
decir, que, si ordenamos los números del menor a mayor, la mediana es el número que
deja la mitad de los valores por encima y la otra mitad por debajo de este valor. Lo
primero es ordenar la serie, y luego establecer si la serie es par o impar. Si la serie es
impar, entonces tenemos un valor que divide la serie en dos mitades iguales. Si la serie
es par, la mediana será la media de los dos números centrales.
Los siguientes datos corresponden a las edades de dos grupos de pacientes en
una sala de espera de un hospital municipal. Los pacientes de ginecología tienen las
siguientes edades: 23, 24, 17, 32 y 34. Los pacientes de cardiología tienen las
siguientes edades: 65, 43, 44, 43, 70 y 57.
44 +57
=50. 5
2
MODA
La moda es el número que más se repite en una serie numérica. La siguiente
tabla muestra las calificaciones de tres grupos de estudiantes de medicina.
Tabla 2-8
CALIFICACIONES DE TRES GRUPOS DE ESTUDIANTES
UNIVERSIDAD TECNOLÓGICA DE SANTIAGO
GRUPO A GRUPO B GRUPO C
78 69 90
77 65 78
82 77 78
85 78 98
85 85 89
73 92 76
90 93 98
88 96 94
76 98 83
92 87 79
85 84 88
72 76 78
69 66 98
MEDIDAS DE VARIABILIDAD
Las medidas de tendencia central nos orientan acerca de cómo se organizan los
valores de la muestra alrededor de valores centrales. Pero no nos informan sobre las
variaciones de los mismos. Las medidas de variabilidad o de dispersión nos dicen cuan
agrupados o dispersos se encuentran los valores de la serie alrededor de los valores
medios. Dos muestras pueden tener la misma media, la misma moda y misma
mediana, pero los valores pueden tener rangos de variación o dispersión
marcadamente diferentes.
RANGO
El rango se obtiene restando al número mayor de la serie el número menor. Es
un indicador de variabilidad de las poblaciones. Si en un grupo de individuos el mayor
tiene treinta años de edad y el menor tiene 20 años, el rango de ese grupo es 10. Si
tenemos otro grupo en que el mayor tiene 50 años y el menor tiene 15 años, el rango
35. Observe los rangos para las siguientes series numéricas:
Ejemplo No. 1
23 21 32 65 89 23 30 10
Rango
89-10=79
Ejemplo No. 2
21 23 09 32 13 69 98 99
Rango
99-9=90
VARIACIÓN
La variación en una serie numérica es la distancia que hay entre un número de
esa serie y la media aritmética. Lo primero es calcular la media y después podemos
determinar la variación de cualquier número de la serie en relación con esa media.
Como habrá números mayores y menores de la media, tendremos variaciones positivas
y negativas. Observe la media y las variaciones del siguiente ejemplo:
Ejemplo No. 1
2 4 6 8 10 12 14 16
Solución
72
=9
Media= 8
Variaciones
2-9 4-9 6-9 8-9 10-9 12-9 14-9 16-9
-7 -5 -3 -1 1 3 5 7
s2=
∑ ( x−x́ )2
n−1
Ejemplo 2-1
Las siguientes son las edades de 6 estudiantes de medicina de UTESA. Con estos
datos calcularemos la varianza y la desviación estándar.
21 23 24 20 25 19
X́ =
∑x
n
132
X́ = =22
6
s2=
∑ ( x−x́ )2
n−1
28
s2= 5.6
5
s= √ s2
s= √ 5.6
S=2.36
Ejemplo 2-2
Suponga que un anestesiólogo está interesado en comparar la rapidez de acción
de dos analgésicos. Para estos fines tomó una muestra de cinco pacientes para
aplicarles el anestésico 1 y cinco pacientes para aplicarles el anestésico 2. Los
siguientes datos corresponden a los tiempos en minutos necesarios para producir sus
efectos farmacológicos.
S2 =
∑ ( x−x́ )2
n−1
Para fines de cálculos vamos a convertir esta fórmula en una serie de pasos, para
luego ver si s2 tiene sentido como medida de variabilidad:
ANESTÉSICO 1
20.0 20.5 20.5 22.5 23.0
X́ =
∑x
n
20.0+ 20.5+20.5+22.5+23.0
X́ = =21.3
5
Tabla 2-9
TIEMPO DE ACCIÓN DEL ANESTÉSICO 1
2
( X − X́ ) ( X − X́ )
20.021.3=1.3 1.68
20.521.3=0.8 0.64
20.521.3=0.8 0.64
22.521.3=1.2 1.44
23.021.3=1.7 2.89
TOTAL 7.29
2 ∑ ( x−x́ )2
S=
n−1
7.30
S2=
5−1
7.30
S2 = =1.82
4
ANESTÉSICO 2
0 20.5 20.5 21.0 44.5
X́ =
∑x
n
0+20.5+20.5+21.0+ 44.5
X́ = =21.3
5
Tabla 2-10
TIEMPO DE ACCION DEL ANESTESICO 2
2
( X − X́ ) ( X − X́ )
021.3=21.3 453.69
20.521.3=0.8 0.64
20.521.3=0.8 0.64
21.021.3=0.3 0.09
44.521.3=23.2 538.24
TOTAL 993.30
∑2( x−x́ )2
S=
n−1
993.30
S2 =
5−1
993.30
S2 = =248.32
4
Ejemplo 2-3
Veamos un ejemplo concreto en que cinco recién nacidos tienen el mismo peso,
es decir, pesan 4 kilos. Ahora calculemos la media y la varianza. El resultado es que la
varianza es cero.
S2=
∑ ( x−x́ )2
n−1
x́=
∑ x = 4+ 4+ 4+ 4 = 16 =4
n 4 4
0
S2= =0
3
Ejemplo 2-4
Ahora suponga que algunas observaciones son diferentes, pero que todas están
cerca unas de las otras. En este caso todas las observaciones estarán cerca de la
media muestral, lo que hace que todas las diferencias entre las observaciones y la
media ( x−x́ )2 sean pequeñas, haciendo que s2 sea pequeña.
8observaciones son diferentes, pero no hay grandes diferencias entre ellas.
3, 5, 7, 9, 11
Rango
11−3=8
35
X́ = =7
5
2 ∑ ( x−x́ )2
S=
n−1
2 ∑ ( 3−7 )2 + ( 5−7 )2+ (7−7 )2+ ( 9−7 )2 + ( 11−7 )2
S=
5−1
2
S =26
40
S2 = =10
4
Ejemplo 2-5
Finalmente suponga que algunas de las observaciones están muy separadas.
Entonces, algunas de las observaciones están lejos de la media muestral, de ahí que
algunos de los términos ( x−x́ )2 son grandes, haciendo que s2 sea grande. De esta
forma la varianza de la muestra refleja el grado de variabilidad de los datos. Los
siguientes valores son las edades en años de cinco personas:
3, 7, 17, 24, 29
Rango
29−3=26
80
x́= =16
5
2 ∑ ( x−x́ )2
S=
n−1
S2=
∑ ( 3−16 )2 +( 7−16 )2+ ( 17−16 )2+( 24−16 )2+ (29−16 )2
5−1
169+81+1+64 +169
S2 =
4
484
S2= =121
4
S= √ s2
Para los datos de los anestésicos las desviaciones estándar son √(1.82)=1.35
minutos para el anestésico 1 y √ 248.32 =15.76 minutos para el anestésico 2. Como
hemos tomado la raíz cuadrada, las desviaciones estándares están en las mismas
unidades en que están los datos. Esta es la razón por la cual la desviación estándar es
más usada que la varianza en la literatura médica.
COEFICIENTE DE VARIACIÓN
Si intentamos comparar las desviaciones estándares de dos poblaciones nos
percatamos de inmediato que esto no tiene sentido, porque la variabilidad de una
población no tiene nada que ver con la variabilidad de la otra población. Pero si
comparamos la variabilidad de una población, es decir, su desviación estándar, con su
propia media, tenemos un indicador que sí nos permite comparar la variabilidad entre
dos poblaciones. Esto es lo que conocemos como Coeficiente de Variación, y que se
obtiene al dividir, la desviación estándar entre la media. Como la desviación estándar
siempre será menor que la media, que es el denominador, el resultado será una
fracción. La fórmula es:
σ
C.V.= Media
Ejemplo No. 1
Supongamos los niveles de hemoglobina, en gramos, de dos poblaciones. La
primera población tiene una hemoglobina media de 12 gramos con una desviación
estándar de 2 gramos y la otra población tiene una media de 14 gramos con una
desviación estándar de 2 gramos. Para comparar los niveles de hemoglobina de estas
dos poblaciones calculemos los coeficientes de variación.
Primera Población
σ 2
C.V.= Media = 12 =0.16
Segunda Población
σ 2
=0 .14
C.V.= Media = 14
Interpretación
El coeficiente de variación, al igual que la varianza, mide la variabilidad de las
poblaciones con relación a la media. La primera población tiene mayor variabilidad, y
por tanto, los niveles de hemoglobina de los miembros de esta población están más
dispersos o menos precisos que en la segunda población.
56 60 65 66 67 68 69 69 70 71
72 75 75 76 77 78 79 80 82 84
86 88 89 90 90 93 95 96 98 99
Tenemos una fórmula para calcular los cuartiles, los deciles y los percentiles de
datos no agrupados.
FÓRMULA GENERAL
Aplicación a los cuartiles
K
L= .n
100
25
L= x 30=7.5 Q1=69
100
50
L= x 30=15 Q2=77.5
100
75
L= x 30=22.5 Q3=89
100
10
L= x 30=3
100
40
L= x 30=¿ 12
100
90
L= x 30=27
100
MEDIA.
Para calcular los estadísticos en datos agrupados, lo primero es determinar si la
variable de la primera columna está presentada en clases o en intervalos de clases.
Si la variable está en clases, representada por X, se multiplica por la frecuencia
(f) para obtener Xf. La media se obtiene sumando los valores Xf y dividiéndolos entre la
sumatoria de la frecuencia.
Ejemplo No.1
A un grupo de estudiantes de medicina se les preguntó que cuantas veces
habían asistido al cine en el último ciclo académico. La respuesta se presenta en la
siguiente tabla:
0 5 0 -2 4 20
1 10 10 -1 1 10
2 15 30 0 0 0
3 10 30 1 1 10
4 5 20 2 4 20
Total 45 90 60
∑ xf
X́ =
∑f
90
X́ = =2
45
Aplicando esta fórmula se obtiene una media que es igual a 2. Para determinar
la varianza y la desviación estándar es necesario agregar otras tres columnas. Los
valores de la cuarta columna se consiguen restando a cada valor de X, la media. En la
quinta columna estas diferencias se elevan al cuadrado. Y en la última columna, la
diferencia entre los valores de X menos la media al cuadrado se multiplica por la
frecuencia y al final se suman estos productos. De esta forma se obtiene el valor que
corresponde al numerador de la siguiente fórmula:
2 ∑ ( x−x́ )2 f
s=
n−1
60
s2= =1.36
44
2
∑ ( x− x́ ) f
s=
√ n−1
s= √ 1.36=¿ ¿1.17
Ejemplo No.2
La siguiente tabla presenta la distribución, según grupos de edad, de los casos
de dengue en una comunidad rural de Santiago.
Tabla 2-12
CASOS DE DENGUE SEGÚN GRUPOS DE EDAD
Grupos X f Xf ( ×−~
×) ( x−x́ )2 ( x−x́ )2f
de Edad
2-4 3 5 15 -6 36 180
5-7 6 10 60 -3 9 90
8-10 9 15 135 0 0 0
11-13 12 10 120 3 9 90
14-16 15 5 75 6 36 180
Total 45 405 540
x́=
∑ xf = 405 =9
f 45
2 ∑ ( x−x́ )2 f
s=
n−1
540
s2= =12.3
44
540
s=
√ 44
=12.3=3.5
I. DISTRIBUCIÓN DE FRECUENCIA