Está en la página 1de 28

CAPÍTULO 2

ESTADíSTICA DESCRIPTIVA
En este capítulo trataremos las distribuciones de frecuencias para los datos
cualitativos y cuantitativos. Se explicarán los tipos de gráficos según el tipo de variable.
Luego seguiremos con las medidas de tendencia central y las medidas de variabilidad
para datos agrupados y no agrupados. Al final se presentarán los ejercicios que
corresponden a los temas tratados.
En secciones anteriores habíamos dicho que existen tres tipos de datos o
variables. Se pueden construir tablas para datos cualitativos, para datos cuantitativos
discretos y para datos cuantitativos continuos. Sin embargo, una tabla puede contener
un solo tipo de variable, o puede tener dos o los tres tipos de variables.

DISTRIBUCIÓN DE FRECUENCIA PARA VARIABLES CUALITATIVAS


La siguiente es una tabla que corresponde a la distribución de frecuencia de los
estudiantes de ciencias de la salud de una universidad. La primera columna
corresponde a la variable cualitativa, que es el nombre asignado a cada carrera. La
segunda columna es el número total de estudiantes por carrera. Las demás columnas
corresponden a la frecuencia relativa que se obtiene dividiendo el valor absoluto de
cada carrera entre el total. El porcentaje se obtiene multiplicando la frecuencia relativa
por 100. Esta multiplicación se hace moviendo el punto dos lugares hacia la derecha. Y
por último, tenemos la frecuencia relativa acumulada. Esta se obtiene copiando el
primer valor de la columna de la frecuencia relativa, que es 0.29 y luego se hacen las
sumas sucesivas en forma descendente de los valores de columna de la frecuencia
relativa. La suma de la frecuencia relativa acumulada también es igual a la unidad.

Tabla 2-1
DISTRIBUCIÓN DE LOS ESTUDIANTES DE CIENCIAS DE LA SALUD
EN UNA UNIVERSIDAD
Carrera Frecuencia Frecuenci Porcentaje Frecuencia Relativa
Absoluta a (%) Acumulada
Relativa
Medicina 200 0.29 29 0.29
Bioanalisis 150 0.21 21 0.50
Farmacia 130 0.19 19 0.69
Enfermerí 120 0.17 17 0.86
a
Veterinaria 100 0.14 14 1.00
Total 700 1.00 100
DISTRIBUCIÓN DE FRECUENCIA PARA VARIABLES CUANTITATIVAS
DISCRETAS
La siguiente tabla corresponde a la distribución de frecuencia del número
de créditos que tomaron 150 estudiantes de medicina. La primera columna
corresponde a la variable cuantitativa discreta, que es el número de créditos
seleccionado por los estudiantes, presentado en rangos de valores. La segunda
columna es la frecuencia absoluta, es decir, es el número total de estudiantes que
tomaron alguno de los rangos de valores presentados en la primera columna. Las
demás columnas corresponden a la frecuencia relativa, el porcentaje y la frecuencia
relativa acumulada.

Tabla 2-2
NÚMERO DE CRÉDITOS SELECCIONADOS POR 150 ESTUDIANTES DE
MEDICINA EN UNA UNIVERSIDAD
Número de Frecuencia Frecuencia Porcentaje Frecuencia
Créditos Absoluta Relativa (%) Relativa
Seleccionados Acumulada
<15 10 0.07 7 0.07
15-19 15 0.10 10 0.17
20-24 40 0.27 27 0.44
25-29 50 0.33 33 0.77
≥30 35 0.23 23 1.00
TOTAL 150 1.00 100

TABLA DE DISTRIBUCIÓN DE FRECUENCIA PARA VARIABLES CUANTITATIVAS


CONTINUAS
La siguiente tabla muestra la distribución de una variable cuantitativa continua.
Son los niveles de colesterol de una población de 100 individuos adultos que asistieron
a un centro privado. La primera columna corresponde a los intervalos de clase.
Observe que hay ocho intervalos. Cada intervalo tiene un límite inferior y un límite
superior. La distancia entre el límite inferior de un intervalo y el siguiente se denomina
Amplitud de Clase. Debe notarse que los intervalos son mutuamente excluyentes. La
segunda columna es la frecuencia absoluta, es decir, el total de individuos en cada
intervalo. Las demás columnas corresponden a la frecuencia relativa, el porcentaje y a
la frecuencia relativa acumulada.
Tabla 2-3
NIVELES DE COLESTEROL EN 100 ADULTOS
Niveles Frecuencia Frecuencia Porcentaje Frecuencia
Colesterol Absoluta Relativa (%) Relativa
Acumulada
61-85 3 0.03 3 0.03
86-110 8 0.08 8 0.11
111-135 17 0.17 17 0.28
136-160 25 0.25 25 0.53
161-185 24 0.24 24 0.77
186-210 14 0.14 14 0.91
211-235 6 0.06 6 0.97
236-260 3 0.03 3 1.00
Total 100 1.00 100

Es necesario destacar algunos aspectos en la primera columna. Se puede


constatar que la amplitud del intervalo es el mismo en todos los intervalos y se puede
comprobar buscando la distancia entre los limites inferiores (o superiores) de clases
consecutivas. Por ejemplo, 236 menos 211 es igual a 25. De igual modo 211 menos
186 también nos da 25 y así sucesivamente. Lo mismo ocurre con los límites
superiores de los intervalos. Observe que 260 menos 235 es igual a 25. Compruebe
que este patrón se cumple con los demás intervalos. .
Ahora explicaremos el procedimiento que hemos seguido para construir esta
tabla. La fuente son los niveles de colesterol de 100 personas que se presentan a
continuación. Como sabemos, esta es una variable cuantitativa continua y se nos ha
pedido que construyamos una tabla de distribución de frecuencia.

120 109 149 118 133 129 137 137 163 96 179 148
87 109 176 174 257 143 126 181 245 181 200 157
219 159 171 153 141 198 193 124 220 195 124 133
103 165 176 182 187 225 147 202 163 172 158 174
165 158 146 189 151 70 209 118 97 161 91 150
158 161 64 207 151 172 115 175 254 119 189 142
148 154 126 161 149 173 182 205 133 121 152 220
165 182 204 103 188 154 116 126 144 183 120 156
219 217 194 61

GUIA PARA LA CONSTRUCION DE UNA TABLA DE DISTRIBUCION DE


FRECUENCIA PARA UNA VARIABLE CUANTITATIVA CONTINUA
1. Primero se determina el Número de Clases utilizando el Método de H. Sturges.
El número de clases no debe ser menor de 5 ni mayor de 20.
Formula de Sturges=1+3.3 Log10 n
Sturges=1+3.3 Log10 100
Sturges=1+3.3 x 2
Sturges=1+6.6
Sturges=7.6
No se deben usar fracciones. Por tanto, se redondea hacia arriba.
Entonces se trabajará con 8 intervalos de clase.
2. El segundo paso es determinar el Rango, que es la diferencia entre el número
mayor y el número menor de la serie. Revise la serie de datos y compruebe que
el número mayor es 257 y el menor 61, entonces el rango es 196
3. El tercer paso es determinar la Amplitud del Intervalo dividiendo el rango entre
el número de clases.
Rango
Amplitud de Clase=
No. de Clases

196
Amplitud de Clase= =24.5
8

Amplitud del Intervalo=196/8=24.5. Se redondea a 25


4. Se toma el número más pequeño de la serie como el límite inferior del primer
intervalo, que es el 61 y se suma sucesivamente la amplitud del intervalo hasta
completar los ocho límites inferiores de los intervalos. De esa forma se obtienen
los siguientes números 61, 86, 111, 136, 161, 186, 211 y 236. Para obtener el
límite superior del primer intervalo se resta 1 del límite inferior del siguiente
intervalo. Es decir, 86 menos uno es 85, que será el límite superior del primer
intervalo. Los demás límites superiores se obtienen sumando sucesivamente la
amplitud del intervalo, que es 25. De esta forma se obtienen los siguientes
intervalos de clase:

Tabla 2-4
MÉTODO DE LOS PALOTES
61-85 ///-3
86-110 /////-///-8
111-135 /////-/////-/////-//-17
136-160 /////-/////-/////-/////-/////-25
161-185 /////-/////-/////-/////-////-24
186-210 /////-/////-////-14
211-235 /////-/-6
236-260 ///-3

5. Para obtener la frecuencia absoluta, es decir, el total de individuos en


cada intervalo regrese a los datos no agrupados y observe que el primer número
es 120. Coloque un palote en el intervalo correspondiente, que es entre 111 y
135. El siguiente número es 109, que corresponde al intervalo entre 86 y 110.
Siga este procedimiento hasta colocar todos los palotes que corresponden a los
datos. El resultado se presenta en la tabla 2-4. Ahora cuente el numero de
palotes en cada intervalo y ya puede colocar los datos de la frecuencia absoluta
en la segunda columna de la tabla. Observe que coincide con los datos de la
segunda columna de la tabla 2-3.

6. La frecuencia relativa se obtiene dividiendo el valor absoluto de cada intervalo


entre el total, que multiplicado por 100 se convierte en el porcentaje. Para la
frecuencia relativa acumulada, se copia el primer valor de la frecuencia relativa y
se suma sucesivamente hacia abajo hasta llegar a la unidad.

PRESENTACIÓN GRÁFICA DE LOS DATOS


A continuación, se presentarán ejemplos de 6 tipos de gráficos que son el Histograma,
el Polígono de Frecuencia, Diagrama de Tallo y Hoja, Grafico de Pastel, Diagrama de
Caja y Bigote y el Diagrama de Dispersión.

HISTOGRAMA
El histograma es uno de los gráficos más utilizados en las publicaciones
científicas, especialmente en el campo de la epidemiología. Se elige cuando se grafica
una variable cuantitativa continua. El histograma se construye colocando, en el eje
vertical, la frecuencia absoluta o la frecuencia relativa. En el eje horizontal se coloca el
punto medio y los limites reales de clase. Una característica de los histogramas es que
las barras se tocan. Como las barras de los histogramas deben tocarse, las barras
deben comenzar y terminar con los Límites Reales de Clases. Se llaman Limites
Reales a los números que separan las clases sin dejar huecos.
Con los datos de la Tabla 2-5 construiremos un histograma de punto medio y
con límites reales de clase. En esta tabla se presentan los intervalos de clase, la
frecuencia absoluta y la frecuencia relativa.

TABLA 2-5
INTERVALOS, FRECUENCIA Y PUNTO MEDIO
INTERVALOS FRECUENCIA FRECUENCIA
ABSOLUTA RELATIVA
18-26 3 0.075
27-35 5 0.125
36-44 9 0.225
45-53 12 0.300
54-62 5 0.125
63-71 4 0.100
72-80 2 0.050
TOTAL 40 1.000
La Tabla 2-6 presenta, en la primera columna, los limites reales de clase y en la
última columna el punto medio o marca de clase. Los límites reales de clase se
obtuvieron restando 0.5 a límite inferior de cada intervalo y sumando 0.5 al límite
superior. El punto medio es el promedio del límite inferior y el inferior en cada intervalo.
TABLA 2-6
INTERVALOS, FRECUENCIA Y PUNTO MEDIO
LIMITES REALES DE FRECUENCIA FRECUENCIA PUNTO MEDIO
CLASE(INTERVALOS AGSOLUTA RELATIVA
)
17.5-26.5 3 0.075 22
26.5-35.5 5 0.125 31
35.5-44.5 9 0.225 40
44.5-53.5 12 0.300 49
53.5-62.5 5 0.125 58
62.5-71.5 4 0.100 67
71.5-80.5 2 0.050 76
TOTAL 40 1.000

Observe, en el histograma de la figura 2-1, la ubicación de los puntos medios y


la amplitud de los intervalos. Las barras están unidas porque el límite superior de cada
intervalo coincide con el límite inferior del intervalo siguiente

FIGURA. 2-1
POLÍGONO DE FRECUENCIA
El polígono de frecuencia se ha diseñado especialmente para los datos
cuantitativos. Puede hacerse con datos cuantitativos discretos y continuos. Se
construye colocando un punto en la parte superior y media de las columnas del
histograma y uniéndolos mediante una línea recta. En el eje horizontal se colocan los
puntos medios de los intervalos y en el eje vertical se colocan las frecuencias. También
los polígonos pueden ser de frecuencias absolutas y de frecuencias relativas. El
siguiente es un polígono de frecuencia absoluta y de punto de medio. Fue construido
con la siguiente tabla:
TABLA 2-6
LIMITES REALES DE FRECUENCIA PUNTO MEDIO
CLASE
10.5-17.5 2 14
17.5-24,5 5 21
24.5-31.5 7 28
31.5-38.5 16 35
38.5-45.5 10 42
45.5-52.5 8 49
52.5-59.5 1 56
59.5-66.5 1 63

FIG. 2-2
GRÁFICO DE TALLO Y HOJA
El gráfico de Tallo y Hoja, al igual que el histograma, es útil para el análisis
exploratorio de datos y fue desarrollado por John Tukey en el año 1977. Este gráfico es
muy parecido y tiene la forma de un histograma, pero tiene la ventaja que conserva los
números originales. Cada uno de los números de la serie es clasificado como tallo (que
es el número que está más a la izquierda) o como hoja (que son los números que están
a la derecha de las entradas). Identifique el número menor y el mayor. Si la serie
contiene números de dos dígitos, entonces el numero de la izquierda es el tallo o la
entrada que va desde 1 hasta 9. Si la serie tiene números de tres dígitos, entonces el
tallo o la entrada tiene dos dígitos y se colocan a la izquierda, los demás números son
hojas. Veamos el siguiente ejemplo:
44 45 49 50 52 53 53 54 54 56 57 57
57 58 61 62 62 63 64 67 68 69 70 71
71 72 73 74 74 75 76 76 78 79 80 81
83 85

1. El número menor es el 44 y el mayor el 85, entonces el tallo va desde cuatro


hasta ocho. Se colocan los números que corresponden al tallo a la izquierda de
una línea vertical como se muestra a continuación
2. Como son números de dos dígitos, el numero de la derecha de cada par es la
hoja, que se colocan a la derecha de la línea vertical que se ha trazado
3. El primer número es 44. El tallo es 4 y la hoja 4. El segundo número es el 45, el
tallo es 4 y la hoja es 5. El tercer número es 49, el tallo es 4 y la hoja es 9, y así
sucesivamente.

FIGURA 2-3
GRÁFICO CIRCULAR
Queremos construir un gráfico de pastel que represente la distribución de los
gastos en una familia cuyos ingresos mensuales son de $40,000. El primer paso es
hacer una tabla de distribución de los gastos. Luego se determina que porción del
gasto total corresponde a la alimentación, al pago de la casa, al pago de la luz y otros
gastos. Estas porciones son las frecuencias relativas. Como sabemos que una
circunferencia tiene 360 grados asignamos a cada componente del gasto la parte de la
circunferencia que le corresponde. Esto se logra mediante una regla de tres,
multiplicando la frecuencia relativa por 360.

TABLA 2-7
DISTRIBUCIÓN DE LOS GASTOS EN UNA FAMILIA
Tipo de gastos Frecuencia Frecuencia Angulo
Absoluta Relativa
Alimentación 16,000 0.40 144
Casa 12,000 0.30 108
Luz 4,000 0.10 36
Otros 8,000 0.20 72
Total 40,000 1.000 360

FIGURA 2-4
Los segmentos del pastel son los ángulos que corresponden a cada tipo de
gasto familiar, expresado en porcentaje.

DIAGRAMA DE DISPERSIÓN
Cuando se tiene datos pareados y se desea saber si hay algún tipo de relación
entre ellos, usamos el diagrama de dispersión. Usualmente la variable que se supone
independiente se coloca en el eje horizontal(X) y la variable dependiente en el eje
vertical (Y). El diagrama de dispersión sirve para la exploración inicial de la relación
entre dos variables y se pueden dar varias situaciones:
1. Correlación positiva, cuando el aumento de X se acompaña del aumento de
Y, sugiriendo una línea ascendente positiva
2. Correlación negativa, cuando el aumento de X se acompaña de disminución
de Y, sugiriendo una correlación inversa
3. Ausencia de correlación, cuando no hay relación entre los valores de X y los
valores de Y
El siguiente ejemplo indica una correlación positiva, porque el aumento de X se
acompaña de aumento de Y, de forma que se puede trazar una recta entre los pares de
valores

FIGURA 2-5

DIAGRAMA DE CAJA Y BIGOTE


Este gráfico es útil para valorar la simetría y la dispersión de los datos. En el
diagrama se muestran los tres cuartiles, el valor mínimo y el valor máximo sobre un
rectángulo, que es la caja. La distancia desde la caja hacia la izquierda y hacia la
derecha es lo que se ha denominado bigote,
Construiremos este grafico con los siguientes datos, que corresponden a las
edades de un grupo de estudiantes de maestría:

Datos desordenados
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40

El método consiste en ordenar los datos. Después se determina la posición y,


por último, se ubica el percentil

Datos ordenados
20 23 24 24 24 25 29 31 31 33
34 36 36 37 39 39 40 40 41 45

CÁLCULO DE LOS CUARTILES


El primer cuartil o percentil 25 se encuentra en la posición cinco, según la
siguiente fórmula:
Q1=N/4=20/4=5
En la posición 5 de la serie ordenada esta el numero 24. El primer cuartil es el
promedio de este número y el siguiente que es el 25, resultando 24.5.
Q1=24.5

El segundo cuartil o mediana se encuentra en la posición diez, según la siguiente


fórmula:
Q2=N/2=20/2=10
En la posición 10 se encuentra el numero 33. El segundo cuartil o mediana es el
promedio de este número y el siguiente que es 34. Por tanto, el segundo cuartil es
33.5
Q2=33.5

El tercer cuartil o percentil 75 se encuentra en la posición quince, según la


siguiente fórmula:
Q3=3N/4=60/4=15
En la posición 15 se encuentra el número 39. El tercer cuartil es el promedio de
este número y el siguiente que es 39. Por tanto, el tercer cuartil es 39
Q3=39

FIGURA 2-6
La interpretación de este diagrama nos dice que la parte izquierda (verde) de la
caja es mayor que la derecha, indicando que las edades comprendidas entre el 25% y
el 50% de la población está más dispersa, que la población que está entre el 50% y el
75%.
Además, el bigote de la izquierda, desde el valor mínimo hasta Q 1 es más corto
que el bigote de la derecha, porque el 25% de los más jóvenes están más
concentrados que el 25% de los mayores. El rango intercuartilico que es la diferencia
entre Q3 y Q1 es 14.5. Esto significa que el 50% de la población se encuentra entre 24,5
años y 39 años.

MEDIDAS DE TENDENCIA CENTRAL A PARTIR DE DATOS NO AGRUPADOS


Las medidas de posición son medidas que describen cómo se encuentran los
elementos de una muestra en relación con un determinado valor. Algunos valores son
indicadores del centro de una distribución y los llamamos medidas de tendencia central.
Las medidas de tendencia central más usadas son la media, mediana y la moda.

MEDIA
La media o media aritmética se define como el total de todas las observaciones
dividido entre el número de observaciones realizadas. Si designamos cada observación
con una x y el número de observaciones con una n, y usamos el símbolo de sumatoria,
podemos escribir:

Media=
∑x
n

La ventaja de la media es su fácil cálculo. Sin embargo, la media tiene la


desventaja de quedar gravemente afectada por los valores extremos. Consideremos la
muerte de cinco ingenieros por infartos de miocardio cuyas edades eran 33, 63, 68, 70
y 75 años. La media correspondiente es 61.8. Puede observarse que la media
calculada está seriamente afectada por una observación ocurrida a los 33 años. Cuatro
de 5 observaciones son superiores a la media. Si excluimos ese valor extremo
tendríamos una mejor valoración de la edad promedio de esos episodios

Ejemplo No. 1
Calcule la media aritmética de la siguiente serie numérica. Primero escriba la
fórmula y luego desarrolle la solución.

2, 4, 6, 8, 10, 12

Solución
Media=
∑x
n
2+4 +6+8+10+ 12
Media= =7
6
MEDIANA
La mediana de una serie numérica es el valor equidistante de los extremos, es
decir, que, si ordenamos los números del menor a mayor, la mediana es el número que
deja la mitad de los valores por encima y la otra mitad por debajo de este valor. Lo
primero es ordenar la serie, y luego establecer si la serie es par o impar. Si la serie es
impar, entonces tenemos un valor que divide la serie en dos mitades iguales. Si la serie
es par, la mediana será la media de los dos números centrales.
Los siguientes datos corresponden a las edades de dos grupos de pacientes en
una sala de espera de un hospital municipal. Los pacientes de ginecología tienen las
siguientes edades: 23, 24, 17, 32 y 34. Los pacientes de cardiología tienen las
siguientes edades: 65, 43, 44, 43, 70 y 57.

Para calcular la mediana de los pacientes de ginecología lo primero que


hacemos es ordenar la serie, que sería, de menor a mayor: 17, 23, 24, 32 y 34.
Después observamos que es una serie impar, tiene cinco números. La mediana es 24,
que separa la serie en dos partes iguales.
En el caso de los pacientes de cardiología, la ordenaremos así: 43, 43, 44, 57,
65 y 70. Esta serie es par. No hay un valor central. En este caso promediamos los dos
valores centrales y dividimos entre dos. La mediana es:

44 +57
=50. 5
2

MODA
La moda es el número que más se repite en una serie numérica. La siguiente
tabla muestra las calificaciones de tres grupos de estudiantes de medicina.

Tabla 2-8
CALIFICACIONES DE TRES GRUPOS DE ESTUDIANTES
UNIVERSIDAD TECNOLÓGICA DE SANTIAGO
GRUPO A GRUPO B GRUPO C
78 69 90
77 65 78
82 77 78
85 78 98
85 85 89
73 92 76
90 93 98
88 96 94
76 98 83
92 87 79
85 84 88
72 76 78
69 66 98

La moda es 85 en el grupo A, en el grupo B no hay moda y en el grupo C hay


dos modas, es bimodal.

MEDIDAS DE VARIABILIDAD
Las medidas de tendencia central nos orientan acerca de cómo se organizan los
valores de la muestra alrededor de valores centrales. Pero no nos informan sobre las
variaciones de los mismos. Las medidas de variabilidad o de dispersión nos dicen cuan
agrupados o dispersos se encuentran los valores de la serie alrededor de los valores
medios. Dos muestras pueden tener la misma media, la misma moda y misma
mediana, pero los valores pueden tener rangos de variación o dispersión
marcadamente diferentes.

RANGO
El rango se obtiene restando al número mayor de la serie el número menor. Es
un indicador de variabilidad de las poblaciones. Si en un grupo de individuos el mayor
tiene treinta años de edad y el menor tiene 20 años, el rango de ese grupo es 10. Si
tenemos otro grupo en que el mayor tiene 50 años y el menor tiene 15 años, el rango
35. Observe los rangos para las siguientes series numéricas:

Ejemplo No. 1
23 21 32 65 89 23 30 10
Rango
89-10=79

Ejemplo No. 2
21 23 09 32 13 69 98 99
Rango
99-9=90

VARIACIÓN
La variación en una serie numérica es la distancia que hay entre un número de
esa serie y la media aritmética. Lo primero es calcular la media y después podemos
determinar la variación de cualquier número de la serie en relación con esa media.
Como habrá números mayores y menores de la media, tendremos variaciones positivas
y negativas. Observe la media y las variaciones del siguiente ejemplo:

Ejemplo No. 1
2 4 6 8 10 12 14 16
Solución
72
=9
Media= 8

Variaciones
2-9 4-9 6-9 8-9 10-9 12-9 14-9 16-9
-7 -5 -3 -1 1 3 5 7

VARIANZA Y DESVIACIÓN ESTANDAR


Estas son medidas de variabilidad de los datos en relación con la media o
promedio. La varianza se obtiene determinando la diferencia entre cada uno de los
valores de la serie numérica con respecto a la media. Luego se eleva al cuadrado cada
una de las diferencias y se suman. El total algebraico se divide entre el total de los
miembros de la población o muestra menos la unidad. Como las diferencias son
elevadas al cuadrado nunca tendremos números negativos.
La desviación estándar se obtiene determinando la raíz cuadrada de la varianza.
Al realizar la raíz cuadrada se garantiza que el valor obtenido se aproxima a la serie
original, porque la elevación al cuadrado cuando calculamos la varianza fue con la
intención de eliminar los signos negativos. La fórmula para calcular la varianza de una
población es la siguiente:

s2=
∑ ( x−x́ )2
n−1

Ejemplo 2-1
Las siguientes son las edades de 6 estudiantes de medicina de UTESA. Con estos
datos calcularemos la varianza y la desviación estándar.

21 23 24 20 25 19

Guía para calcular la media de una población

Paso 1. Calcule la media de la serie.


Paso 2. Reste cada valor de la serie de la media.
Paso 3. Eleve al cuadrado las diferencias obtenidas.
Paso 4. Sume las diferencias.
Paso 5. Divida la suma de las diferencias de cuadrados entre n−1.

X́ =
∑x
n
132
X́ = =22
6

s2=
∑ ( x−x́ )2
n−1

( 21−22 )2 + ( 23−22 )2+ ( 24−22 )2+ ( 20−22 )2 + ( 25−22 )2 + ( 19−22 )2


s2=
6−1
1+1+4 +4 +9+ 9
s2=
6−1

28
s2= 5.6
5

s= √ s2
s= √ 5.6

S=2.36

Ejemplo 2-2
Suponga que un anestesiólogo está interesado en comparar la rapidez de acción
de dos analgésicos. Para estos fines tomó una muestra de cinco pacientes para
aplicarles el anestésico 1 y cinco pacientes para aplicarles el anestésico 2. Los
siguientes datos corresponden a los tiempos en minutos necesarios para producir sus
efectos farmacológicos.

Anestésico 1: 20.0 20.5 20.5 22.5 23.0


Anestésico 2 0 20.5 20.5 21.0 44.5

Ambos anestésicos producen sus efectos en un tiempo promedio de 21.3


minutos, tienen la misma mediana (20.5 minutos) y la misma duración modal. Pero una
mirada general nos permite ver que los anestésicos son muy diferentes. El anestésico 2
parece producir una respuesta más variable que el anestésico 1. Esta diferencia en la
variabilidad hace que el anestésico 1 sea preferible al anestésico 2, si ambas drogas
son compatibles en otros aspectos como efectos indeseables, costos, etc. Si no
hubiéramos tomado en cuenta la variabilidad, hubiéramos pasado por alto una
diferencia importante entre estos dos anestésicos.
Las medidas de variabilidad son indicadores que representan el grado en que las
observaciones varían. La medida de variabilidad más simple es el rango, que ya
explicamos. En nuestro ejemplo el rango es 3.0 minutos para el anestésico 1 y 44.5
minutos para el anestésico 2. Esta medida, aunque es fácil de calcular, no es una
medida de variabilidad útil, porque se basa en sólo dos valores de la serie.
Una mejor medida de variabilidad es ofrecida por la varianza, s2, que es definida
por la siguiente fórmula:

S2 =
∑ ( x−x́ )2
n−1

Para fines de cálculos vamos a convertir esta fórmula en una serie de pasos, para
luego ver si s2 tiene sentido como medida de variabilidad:

Paso 1. Calcule la media de la serie.


Paso 2. Reste cada valor de la serie de la media.
Paso 3. Eleve al cuadrado las diferencias obtenidas.
Paso 4. Sume las diferencias.
Paso 5. Divida la suma de las diferencias de cuadrados entre n menos 1.

ANESTÉSICO 1
20.0 20.5 20.5 22.5 23.0

X́ =
∑x
n

20.0+ 20.5+20.5+22.5+23.0
X́ = =21.3
5

Tabla 2-9
TIEMPO DE ACCIÓN DEL ANESTÉSICO 1
2
( X − X́ ) ( X − X́ )
20.021.3=1.3 1.68
20.521.3=0.8 0.64
20.521.3=0.8 0.64
22.521.3=1.2 1.44
23.021.3=1.7 2.89
TOTAL 7.29

2 ∑ ( x−x́ )2
S=
n−1

7.30
S2=
5−1

7.30
S2 = =1.82
4
ANESTÉSICO 2
0 20.5 20.5 21.0 44.5

X́ =
∑x
n

0+20.5+20.5+21.0+ 44.5
X́ = =21.3
5

Tabla 2-10
TIEMPO DE ACCION DEL ANESTESICO 2
2
( X − X́ ) ( X − X́ )
021.3=21.3 453.69
20.521.3=0.8 0.64
20.521.3=0.8 0.64
21.021.3=0.3 0.09
44.521.3=23.2 538.24
TOTAL 993.30

∑2( x−x́ )2
S=
n−1

993.30
S2 =
5−1

993.30
S2 = =248.32
4

La varianza puede ser calculada de manera más eficiente usando un


computador que contenga un software estadístico, como Epiinfo, SPSS o Minitab.
Observe que la varianza del anestésico 2 es mucho mayor que la varianza del
anestésico 1, tal como esperábamos. En general mientras más variables sean los
datos, mayor será la varianza.
2
Ahora examinemos la fórmula de la varianza ( S ) para ver como la varianza
mide la variabilidad. Suponga que todas las observaciones son idénticas, es decir,
todas son iguales a un número constante que llamaremos C, entonces la media
muestral será también igual a C. Como cada término ( x−x́ )2 de la muestra es
(C−C ) ² =0, no hay variabilidad, la varianza de la muestra es igual a 0.

Ejemplo 2-3
Veamos un ejemplo concreto en que cinco recién nacidos tienen el mismo peso,
es decir, pesan 4 kilos. Ahora calculemos la media y la varianza. El resultado es que la
varianza es cero.

S2=
∑ ( x−x́ )2
n−1

x́=
∑ x = 4+ 4+ 4+ 4 = 16 =4
n 4 4

2 ∑ ( 4−4 )2+ ( ( 4−4 )2 ) + ( ( 4−4 )2 ) + ( ( 4−4 )2 )


S=
4−1

0
S2= =0
3

Ejemplo 2-4
Ahora suponga que algunas observaciones son diferentes, pero que todas están
cerca unas de las otras. En este caso todas las observaciones estarán cerca de la
media muestral, lo que hace que todas las diferencias entre las observaciones y la
media ( x−x́ )2 sean pequeñas, haciendo que s2 sea pequeña.
8observaciones son diferentes, pero no hay grandes diferencias entre ellas.

3, 5, 7, 9, 11

Rango
11−3=8

35
X́ = =7
5

2 ∑ ( x−x́ )2
S=
n−1
2 ∑ ( 3−7 )2 + ( 5−7 )2+ (7−7 )2+ ( 9−7 )2 + ( 11−7 )2
S=
5−1
2
S =26

40
S2 = =10
4

Ejemplo 2-5
Finalmente suponga que algunas de las observaciones están muy separadas.
Entonces, algunas de las observaciones están lejos de la media muestral, de ahí que
algunos de los términos ( x−x́ )2 son grandes, haciendo que s2 sea grande. De esta
forma la varianza de la muestra refleja el grado de variabilidad de los datos. Los
siguientes valores son las edades en años de cinco personas:

3, 7, 17, 24, 29

Rango
29−3=26

80
x́= =16
5

2 ∑ ( x−x́ )2
S=
n−1

S2=
∑ ( 3−16 )2 +( 7−16 )2+ ( 17−16 )2+( 24−16 )2+ (29−16 )2
5−1

169+81+1+64 +169
S2 =
4

484
S2= =121
4

El resultado es una varianza extremadamente alta, reflejando la gran variabilidad


de la serie, cuya varianza es 121 y el rango es de 26.
Una desventaja de la varianza muestral es su unidad, que es el cuadrado de las
unidades de los datos, no las unidades originales (edades al cuadrado en vez de las
edades). Este defecto se corrige trabajando con la desviación estándar de la muestra s,
que es la raíz cuadrada de la varianza muestral:

S= √ s2
Para los datos de los anestésicos las desviaciones estándar son √(1.82)=1.35
minutos para el anestésico 1 y √ 248.32 =15.76 minutos para el anestésico 2. Como
hemos tomado la raíz cuadrada, las desviaciones estándares están en las mismas
unidades en que están los datos. Esta es la razón por la cual la desviación estándar es
más usada que la varianza en la literatura médica.

COEFICIENTE DE VARIACIÓN
Si intentamos comparar las desviaciones estándares de dos poblaciones nos
percatamos de inmediato que esto no tiene sentido, porque la variabilidad de una
población no tiene nada que ver con la variabilidad de la otra población. Pero si
comparamos la variabilidad de una población, es decir, su desviación estándar, con su
propia media, tenemos un indicador que sí nos permite comparar la variabilidad entre
dos poblaciones. Esto es lo que conocemos como Coeficiente de Variación, y que se
obtiene al dividir, la desviación estándar entre la media. Como la desviación estándar
siempre será menor que la media, que es el denominador, el resultado será una
fracción. La fórmula es:

σ
C.V.= Media

Ejemplo No. 1
Supongamos los niveles de hemoglobina, en gramos, de dos poblaciones. La
primera población tiene una hemoglobina media de 12 gramos con una desviación
estándar de 2 gramos y la otra población tiene una media de 14 gramos con una
desviación estándar de 2 gramos. Para comparar los niveles de hemoglobina de estas
dos poblaciones calculemos los coeficientes de variación.
Primera Población
σ 2
C.V.= Media = 12 =0.16

Segunda Población
σ 2
=0 .14
C.V.= Media = 14

Interpretación
El coeficiente de variación, al igual que la varianza, mide la variabilidad de las
poblaciones con relación a la media. La primera población tiene mayor variabilidad, y
por tanto, los niveles de hemoglobina de los miembros de esta población están más
dispersos o menos precisos que en la segunda población.

MEDIDAS DE POSICIÓN PARA DATOS NO AGRUPADOS


PERCENTILES, DECILES Y CUARTILES
Los percentiles son los valores de la variable que dividen un conjunto de datos,
previamente ordenados, en 100 partes iguales. El percentil 30 tiene a la izquierda el
30% de los valores y a la derecha el 70%. De la misma manera el percentil 80 tiene a la
izquierda el 80% de los valores y a la derecha el 20%.
Los deciles son los valores de la variable que dividen un conjunto de datos,
previamente ordenados, en 10 partes iguales. De manera que el cuarto decil divide la
serie en dos partes, un 40% a la izquierda y a la derecha el 60%. Dicho de otra forma,
el 40 % de los valores son inferiores al cuarto decil y el 60% de los valores son
superiores al cuarto decil.
Los Cuartiles aparecen cuando la serie se divide en cuatro partes iguales. El
25%, el 50%, el 75% y el 100%. El primer cuartil, que llamamos Q1, separa el 25% de
los valores a la izquierda, del 75% de los valores a la derecha. El percentil 50, que
llamamos Q2, es mediana y divide la serie en dos partes iguales. El 50 % a la derecha
de la serie y el 50% a la izquierda. El percentil 75 tiene a la izquierda el 75% de los
valores a la izquierda y el 25% a la derecha. .
Los siguientes datos representan la frecuencia cardiaca de 30 pacientes de la
consulta de un hospital general. Observe que los datos fueron ordenados.

56 60 65 66 67 68 69 69 70 71
72 75 75 76 77 78 79 80 82 84
86 88 89 90 90 93 95 96 98 99

Tenemos una fórmula para calcular los cuartiles, los deciles y los percentiles de
datos no agrupados.

FÓRMULA GENERAL
Aplicación a los cuartiles
K
L= .n
100

25
L= x 30=7.5 Q1=69
100

50
L= x 30=15 Q2=77.5
100

75
L= x 30=22.5 Q3=89
100

Estos números nos indican la posición de los cuartiles. Cuando la posición


calculada tiene una fracción que se aproxima al número superior inmediato. Si, en
cambio, el número que indica la posición es un entero, la verdadera posición es el
promedio del indicado por la posición calculada y el número superior inmediato.
El primer cuartil se encuentra en la posición 7.5. Como tiene fracciones se
aproxima a 8. En la serie numérica vemos que en la posición ocho está el número 69.
Este es el primer cuartil (Q1) que deja a la izquierda el 25% de los números y a la
derecha el 75%. El primer cuartil también se le llama Percentil 25(P 25).

El segundo cuartil se encuentra en la posición 15. Vamos a la serie numérica a


ver qué numero esta en esa posición y encontramos el número 77. Pero como la
posición 15 es un número entero tenemos que sacar el promedio entre 77 y el número
siguiente, que es el 78. El promedio es 77.5. Este es el segundo cuartil (Q2), también
denominado mediana. El 50% de los pacientes tienen una frecuencia cardiaca por
debajo de 77.5 y el otro 50% tienen una frecuencia superior a 77.5. El segundo cuartil
es también denominado Percentil 50.
El tercer cuartil se encuentra en la posición 22.5, que se aproxima a 23 y en la
posición 23 encontramos el número 89, que es el tercer cuartil (Q3), que tiene a la
izquierda el 75% de los números y a la derecha el 25%. El tercer cuartil también es
denominado percentil 75(P75).

Aplicación a los deciles


Los deciles dividen al conjunto de datos en diez grupos iguales. Entonces
tenemos 10 deciles. El primer decil representa el 10% del conjunto de datos, el
segundo decil el 20% y así sucesivamente hasta llegar al decil 10. Aplicando la misma
fórmula calcularemos los deciles 1 y 4. Primero determinamos las posiciones. La
posición para el decil 1 es 3, y para el decil 4 es 12.

10
L= x 30=3
100

La posición para el primer decil es 3. En la tercera posición de la serie numérica


esta el numero 65. Como esta posición es un número entero tenemos que promediar
este número con el siguiente que es 66. El promedio es 65.5, que representa el primer
decil. Esto quiere decir que el 10% de los pacientes tienen una frecuencia cardiaca por
debajo de 65.6 latidos por minuto y el otro 90% tienen una frecuencia superior a 65.5.

40
L= x 30=¿ 12
100

La posición para el cuarto decil es 12. En la posición doce encontramos el


numero 75. Como 12 es un número entero sacamos el promedio de 75 y del número
siguiente que también es 75. Por tanto el cuarto decil es 75. Esto significa que el 40 %
de los pacientes tienen una frecuencia cardiaca por debajo de 75 latidos por minuto y
que el 60% tienen una frecuencia cardiaca por encima de 75 latidos por minutos.

Aplicación a los percentiles


Los percentiles dividen al conjunto de datos en cien partes iguales. Aplicaremos
la fórmula para calcular el percentil 30(P30) y el percentil 90(P90).
30
L= x 30=9
100
El número 9 es la posición. En esa posición esta el numero 70 Pero como la
posición calculada es un numero entero tenemos que sacar el promedio de 70 con el
numero siguiente de la serie que es 71. El promedio es 70.5, que es la posición del
percentil 30. Significa que el 30% de los pacientes tienen una frecuencia cardiaca por
debajo de 70.5 y que el 70% tienen una frecuencia por encima de 70.5

90
L= x 30=27
100

Para encontrar el percentil 90 hemos determinado la posición que es 27.


Revisando la serie numérica encontramos que en la posición 27 está el numero 95.
Como la posición es un número entero sacamos el promedio de 95 con el número
siguiente que es 96 y nos da 95.5. Entonces el percentil 90 es 95.5. Esto indica que el
90% de los pacientes tienen una frecuencia cardiaca por debajo de 90 y que solo el
10% tiene frecuencia por encima de 90.

MEDIDAS DE TENDENCIA CENTRAL A PARTIR DE DATOS AGRUPADOS


Estos cálculos se hacen necesarios cuando se desea calcular la media, la
varianza y la desviación estándar cuando ya los datos han sido agrupados en una tabla
de distribución de frecuencia. Puesto que no se está trabajando con los datos
originales, lo que se logra es una aproximación.

MEDIA.
Para calcular los estadísticos en datos agrupados, lo primero es determinar si la
variable de la primera columna está presentada en clases o en intervalos de clases.
Si la variable está en clases, representada por X, se multiplica por la frecuencia
(f) para obtener Xf. La media se obtiene sumando los valores Xf y dividiéndolos entre la
sumatoria de la frecuencia.

Ejemplo No.1
A un grupo de estudiantes de medicina se les preguntó que cuantas veces
habían asistido al cine en el último ciclo académico. La respuesta se presenta en la
siguiente tabla:

Tabla No. 2-11


NÚMERO DE VECES QUE 45 ESTUDIANTES
ASISTIERON AL CINE EN EL ULTIMO CICLO ACADEMICO
X f xf ( x−x́ ) ( x−x́ )2 ( x−x́ )2f
Asistencia

0 5 0 -2 4 20
1 10 10 -1 1 10
2 15 30 0 0 0
3 10 30 1 1 10
4 5 20 2 4 20
Total 45 90 60

∑ xf
X́ =
∑f
90
X́ = =2
45

Aplicando esta fórmula se obtiene una media que es igual a 2. Para determinar
la varianza y la desviación estándar es necesario agregar otras tres columnas. Los
valores de la cuarta columna se consiguen restando a cada valor de X, la media. En la
quinta columna estas diferencias se elevan al cuadrado. Y en la última columna, la
diferencia entre los valores de X menos la media al cuadrado se multiplica por la
frecuencia y al final se suman estos productos. De esta forma se obtiene el valor que
corresponde al numerador de la siguiente fórmula:

2 ∑ ( x−x́ )2 f
s=
n−1

60
s2= =1.36
44

2
∑ ( x− x́ ) f
s=
√ n−1

s= √ 1.36=¿ ¿1.17

La varianza resultante es 1.36 y la desviación estándar es 1.17, para datos


agrupados cuando la variable se presenta en forma de clases.
Cuando la varianza se presenta en forma de intervalos de clase el procedimiento
varía en algunos aspectos. En este caso el valor de X es el punto medio o marca de
clase. El resto del procedimiento es igual al ejemplo anterior.

Ejemplo No.2
La siguiente tabla presenta la distribución, según grupos de edad, de los casos
de dengue en una comunidad rural de Santiago.

Tabla 2-12
CASOS DE DENGUE SEGÚN GRUPOS DE EDAD
Grupos X f Xf ( ×−~
×) ( x−x́ )2 ( x−x́ )2f
de Edad
2-4 3 5 15 -6 36 180
5-7 6 10 60 -3 9 90
8-10 9 15 135 0 0 0
11-13 12 10 120 3 9 90
14-16 15 5 75 6 36 180
Total 45 405 540

x́=
∑ xf = 405 =9
f 45

2 ∑ ( x−x́ )2 f
s=
n−1

540
s2= =12.3
44

540
s=
√ 44
=12.3=3.5

Debe observarse que la media, la varianza y la desviación estándar fueron


calculadas aplicando la misma fórmula que en el ejemplo anterior.
EJERCICIOS DEL CAPÍTULO

I. DISTRIBUCIÓN DE FRECUENCIA

Los siguientes números corresponden a los niveles de triglicéridos de 80


pacientes de un Centro de Diagnostico de Santiago. Con estos valores construya:
1. Una tabla de distribución de frecuencias, indicando la frecuencia absoluta, la
frecuencia relativa, el porcentaje y la frecuencia relativa acumulada
2. Con los datos de la tabla que usted ha realizado haga un histograma con la
frecuencia absoluta.
3. Haga otro histograma con la frecuencia relativa

194 69 185 108 234 79 76 217 87 58 140 89


148 97 83 84 80 81 131 176 113 184 152 317
271 201 260 122 136 240 200 112 135 123 277 205
113 252 135 141 100 139 160 131 137 211 206 147
252 214 187 148 185 132 144 294 158 194 228 152
287 98 180 128 151 70 106 102 92 92 99 113
98 146 134 215 94 86 119 113

II. MEDIDAS DE TENDENCIA CENTRAL. Con los siguientes datos calcule


la media y la mediana(P50), P25 y P75
a. Los siguientes datos corresponden a las edades de un grupo de
estudiantes de Medicina
22 23 18 26 24 30 27 28
23 27 18 19 25 30 24
b. Las siguientes son las calificaciones del primer parcial de un grupo
de estudiantes de bioestadística:
90 89 67 81 100 75 63 40
89 57 80 97 99 75 78

III. MEDIDAS DE DE VARIABILIDAD. Con los siguientes datos calcule la


varianza y la desviación estándar

a. La hemoglobina de ocho pacientes


12.5 13.4 14.6 11.4 28.6 17.3 13.2 16.5

b. El número de mensajes que una persona recibe en su celular durante


una semana
12 15 23 16 9 21 15 20 15

c. Niveles de glicemia de ocho pacientes diabéticos


145 156 400 340 134 190 120 135

IV. CON LA SIGUIENTE TABLA CALCULA LA MEDIA, LA VARIANZA Y


DESVIACION ESTANDAR DE DATOS AGRUPADOS

Intervalos de Clase Punto Medio Frecuencia


10-19 5
20-29 10
30-39 15
40-49 8
50-59 6
Total 44

También podría gustarte