Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CURSO DE ESTADÍSTICA
Las distribuciones de frecuencias son de gran utilidad en los análisis. El número de consultas
médicas realizadas por especialidades por un centro de salud puede ser una información muy
importante para la planificación de recursos.
Sin embargo, en ocasiones manejar un gran número de datos no es lo más aconsejable para
determinados análisis, y si es muy beneficioso tener toda la distribución de una variable
cuantitativa resumida en un solo valor o en muy pocos valores que representan con suficiente
aproximación todo la distribución.
Las medidas de resumen para las variables cuantitativas se dividen en dos grandes grupos: las
medidas de tendencia central y las denominadas medidas de posición.
Este grupo de medidas van a resumir toda una distribución, generalmente en un solo valor, que
tiende a ocupar una posición central entre el menor valor y el mayor valor de la serie de datos y
al rededor del cual se agrupan los valores que asume la variable. Ellas son la media aritmética,
la mediana y la moda.
En una serie simple de datos, la media se obtiene sumando todos los datos y dividiéndolos entre
el total de observaciones.
Ej.
Peso en kg. de 5 niños.
3,4,6,8,9,
1
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
3+4+6+8+9/5=30/5
X =6
X
i 1
i
X=
n
Para una serie simple pero con las frecuencias absolutas previamente calculadas, la media se
obtendrá multiplicando la frecuencia por el valor que asume la variable, sumar esos productos y
dividirlos entre el total de observaciones.
Peso en kg. de 30 niños:
2
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
X=
X. f i
Veamos por último el cálculo de la media cuando se tienen los datos agrupados, cuando se tiene
una escala con intervalos de clase.
Peso en kg No.
20–24 4
25–29 10
30–34 8
35–39 3
Total 25
Para el cálculo de la media tengo ahora la dificultad de no saber el peso exacto de los niños, los
4 niños que clasificaron en el primer intervalo de clase pueden haber tenido cualquier peso entre
20 y 24 kg. Para resolver este inconveniente asumimos que el peso de los niños es el valor
central del intervalo de clase, la marca de clase.
Se procede de igual forma que para el cálculo de una serie simple con frecuencia. Multiplicamos
la marca de clase por la frecuencia del intervalo, sumamos esos resultados y lo dividimos entre
el total de observaciones.
3
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
X = 725/25
X = 29kg
X=
mc. f i
En ocasiones puede ocurrir que tengamos la información resumida por más de una media y
después nos percatamos de la necesidad de calcular una media general.
Supongamos que le maestría en gerencia tiene una matrícula de 60 alumnos, 40 son varones y
20 son hembras. La edad promedio de los hombres es de 34.8 años y la de las mujeres es de
29.7 años. Si quisiéramos conocer la edad promedio general del grupo es lógico pensar que
esas medias parciales que ya están calculadas por sexo me pueden servir para abreviar los
cálculos.
Una tendencia generalizada es asumir que el promedio de las medias parciales sería la forma de
cálculo de esa media general. Sin embargo, esa no es la forma correcta de operar, es necesario
tener en cuenta el tamaño de las muestras de donde se obtuvieron esas medias, y para ello se
multiplica el valor de la media por su n correspondiente. Este proceso, que se usa mucho en
estadística se conoce con el nombre de ponderación.
n1 x1 n2 x2 n3 x3....ni xi
X=
n1 n2 n3....ni
4
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
Al calcular la edad promedio de los cursistas ya no tendrá un valor de 30.5 años, valor que
reflejaba muy bien el comportamiento del grupo, sino un valor mucho mayor que se aleja mucho
del comportamiento real. En este caso, cuando existen valores extremos o aberrantes la media
se ve afectada en su cálculo por los mismos y deja de ser una buena medida de resumen.
Entonces preferimos para resumir la información la mediana, que como veremos a continuación,
por su forma de cálculo no se ve afectada ante esta situación.
Mediana. Es la observación que en una serie ordenada, ocupa la posición central, por tanto
divide a la serie en dos parte iguales. Por encima de ella se encuentra el 50% de las
observaciones y a su vez su valor supera al 50% restante.
Por Ejemplo.
5, 6, 7, 9, 11,
Ya se encuentra ordenada de menor a mayor, aunque a simple vista se aprecia que la mediana
es 7kg, apliquemos la expresión para encontrarla:
5+1/2=3
5
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
Cuando la serie es par no hay un único valor central, la mediana sería en este caso la semisuma
de los dos valores centrales.
3, 5, 6 ,7, 9, 11
Me = 6+7/2
Me = 6.5kg
La mediana por su propia forma de cálculo, no se verá afectada por valores extremos pues al
realizar el ordenamiento de los datos estos serían la primera o la última observación.
Es una medida muy utilizada en epidemiología, sobre todo en los estudios de series
cronológicas.
Puede ser calculada para datos agrupados, pero se usa con poca frecuencia. En el caso de
tener escalas abiertas, la media no puede ser calculada, porque los intervalos abiertos no tienen
marca de clase, elemento presente en la expresión de cálculo. En este caso se prefiere utilizar la
mediana que no se ve afectada por este hecho.
La moda es la menos utilizada de las medidas de tendencia central, y como su nombre lo indica
es el valor más frecuente.
6
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
En este caso:
20, 35, 25, 18, 36, 24, 19, 33, 27, 15,
Puede ser calculada para datos agrupados, en cualquier libro de Estadística Ud. puede encontrar
la fórmula.
Medidas de dispersión.
Una distribución de frecuencias para una variable cuantitativa no puede ser resumida con solo
utilizar una medida de tendencia central. El hecho estriba en que si bien el valor que esa medida
asuma nos indica que el resto de las observaciones están ubicadas a su alrededor, no sabemos
cuán lejos o cerca pueden estar situadas y es fácil entender que mientras más próximas estén
las observaciones de esa medida, mejor reflejará está el comportamiento de la distribución.
Veamos un ejemplo.
3, 5, 7, 9, 11
X = 7 días
Me= 7 días
1, 2, 7, 12, 13
X = 7 días
7
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
Me= 7 días
Aunque en los dos ejemplos coinciden los valores de las medias y las medianas, los valores de
las observaciones no se distribuyen alrededor de las mismas de igual manera.
En el caso de las E.D.A. la dispersión es menor, los valores se concentran más alrededor de la
media y la mediana, lo que nos hace pensar que en este caso las medidas de tendencia central
reflejan mejor el comportamiento de la variable.
Por consiguiente una medida de la dispersión, de la variabilidad, debe ser añadida a la medida
de resumen para completar el análisis.
El rango, recorrido o amplitud se obtiene por la diferencia entre el mayor y el menor valor
observado.
Aunque logra cuantificar la variabilidad de los datos, no es una buena medida porque no tiene en
cuenta el resto de las observaciones, solo los dos valores extremos.
Por consiguiente, una buena medida, debe tener en cuenta todos los valore que asume la
variable, e ir midiendo cuan cerca o lejos están de esa medida de tendencia central. Además
para obtener un valor único, lo lógico es hacer un promedio de esas diferencias. Apliquemos
estas ideas al ejemplo de las E.D.A.
X =7
(3-7)+ (5-7)+ (7-7)+ (9-7)+ (11-7)/5
(-5)+(-2)+(0)+(2)+(5)/5
Como puede apreciarse, al realizar la suma algebraica de las diferencias de los valores con
respecto a la media, estos se anulan y es algo que va a ocurrir siempre, invariablemente.
8
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
Esta situación se da por que los valores se alejan de la media en dos sentidos, por defecto y por
exceso, dicho de otra manera, unos serán menores que la media y otros la superarán.
Sin embargo, nuestro interés es tener una medida de la dispersión, pero no tiene que precisar en
qué sentido se alejan de la media, lo que se traduce en que no nos interesa el signo que se
obtenga al encontrar las diferencias.
Así surge la desviación media, y para ello lo que se calcula es la diferencia modular.
D.M.=
x i x
n
Los niños permanecieron ingresados en el servicio de E.D.A. en promedio 7 días con una
dispersión o variabilidad promedio de 2.4 días.
Varianza. Otra forma de lograr que la suma de las diferencias de los valores de la variable con
respecto a la media no se anulen, es elevando esta diferencia al cuadrado. De esta forma el
promedio de las desviaciones al cuadrado es la medida que se conoce bajo el nombre de
varianza.
x x
2
S 2
=
n
9
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
Como el resultado sería 8 días al cuadrado, algo realmente difícil de entender y analizar, se le
saca la raíz cuadrada a ese resultado y obtendremos un valor de fácil interpretación: 2.8 días.
Esta medida que hemos obtenido al calcular la raíz cuadrada a la varianza es la denominada
Desviación estándar, la más conocida y utilizada de las medidas de dispersión.
Su expresión de cálculo para una serie simple es:
S= x 1 x /n
2
Para el cálculo con datos agrupados utilizaremos el mismo ejemplo que se trabajo para la media,
los pesos de 25 niños en edad escolar, que fue de 29 kg.
Al igual que en el caso de la media, se asume que la marca de clase es el valor de la variable
para el número de observaciones que clasificaron en el intervalo.
10
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
S 2 =500/25=20 kg.
S= 20
S=4.5 kg.
mc x f i
2
i
S =
2
La media de los pesos de los niños fue de 29 kg., con una desviación estándar de 4.5kg.Una
forma muy intuitiva de interpretar esta medida es la siguiente, si a la media se le resta y se le
suma la desviación estándar, se forma un intervalo donde se encuentra una buena parte de las
observaciones. Para este ej. Entre 15.5 y 24.5kg se encuentra los pesos de una parte importante
de los niños estudiados.
Todas las medidas de dispersión que hemos visto hasta ahora se consideran medidas de
dispersión absoluta.
Cuando queremos saber entre 2 o más variables cuales presentan una mayor variabilidad o
dispersión, no lo podemos conocer comparando algunas de las medidas de dispersión
analizadas, pues los valores que alcancen dependerán de la unidad de medida propia de cada
variable.
El coeficiente de variación indica el tanto por ciento de la media que representa la desviación
estándar.
Cv = S/ x100
11
MAESTRÍA DE PREVENCIÓN DEL USO INDEBIDO DE DROGAS. CURSO DE ESTADÍSTICA
Supongamos que el peso promedio de un grupo de estudiantes fue de 62kg, con una DE. de
6kg, y la media de la talla de 162cm con una desviación estándar de 8 cm. Si comparamos las
DE. Parece ser la talla la más variable de las dos. Veamos que ocurre cuando calculamos el CV.
12