Está en la página 1de 21

i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 124 — #124


i i

124 elsa lópez, francisco juárez, marsela álvarez

MEDIDAS DE TENDENCIA CENTRAL

Son aquellas que nos indican en qué medida se agrupan los datos o se acercan a un
punto medio.

Media aritmética p x̄q


La media aritmética, o promedio aritmético, se define como la suma de todos los
valores entre el número total de ellos. Es un puntaje que equilibra todos los punta-
jes ubicados a uno y otro lado de ella. Las fórmulas son las siguientes:
Para datos no agrupados: ř
x
x̄ “
n
Para datos agrupados: ř
fx
x̄ “
n
donde:
x = calificación o punto medio de la calificación,
n = número de calificaciones o datos
f = frecuencia.
Se interpreta como el promedio de los datos obtenidos, es decir, el dato al-
rededor del cual se encuentran los demás datos de la distribución. Por ejemplo: si
promediamos la edad de un grupo de alumnos de secundaria probablemente obten-
gamos 14 años, lo que corresponde a las edades de los alumnos que están alrededor
de esta edad, pudiendo ser mayores o menores.
La media no es siempre el puntaje que ocurre más a menudo, ni el más cercano
al medio en una distribución. Media es el punto alrededor del cual las desviaciones
positivas y negativas de la distribución se equilibran.
Ejemplos:
Datos no agrupados
Si quisiéramos encontrar la media del coeficiente intelectual de los 8 entrevis-
tados. El resultado indica que el coeficiente intelectual del grupo en promedio fue
107.87. ř
x 863
x̄ “ “ “ 107.87
n 8

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 125 — #125


i i

estadı́stica descriptiva 125

Entrevistado C.I.
Leticia 125
Francisco 92
Sara 72
Miguel 125
Rebeca 120
Rocı́o 99
Benjamı́n 130
Pablo 100
Total 863

Datos agrupados
Si obtenemos el promedio de calificaciones de matemáticas de un grupo de
secundaria, el resultado indica que en promedio la calificación del grupo fue 6.76,
esto es, que hay tanto calificaciones mayores como menores a ésta.
ř
fx 169
x̄ “ “ “ 6.76
n 25

x f fx
10 1 10
9 3 27
8 6 48
7 4 28
6 5 30
5 2 10
4 4 16
Total 25 169

Moda pMoq
La moda es el valor que se presenta con mayor frecuencia en un conjunto de datos.
De todas las medidas de tendencia central, la moda es la más fácil de determinar,
puesto que, en el caso de las distribuciones con datos no agrupados, se obtiene por
inspección, no por cómputo. Por otra parte, cuando los datos están agrupados, la
moda se define como el promedio de los valores mı́nimo y máximo del intervalo
de mayor frecuencia.

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 126 — #126


i i

126 elsa lópez, francisco juárez, marsela álvarez

A una distribución que cuenta con una sola moda se le denomina unimodal.
Las bimodales refieren dos valores que tienen frecuencias máximas similares. Las
multimodales, por su parte, son distribuciones de mediciones que tienen varias
modas.
Se interpreta como el dato que se repite el mayor número de veces en una
distribución, es decir, es el dato de mayor frecuencia.

Entrevistado C.I.
Leticia 125
Francisco 92
Sara 72
Miguel 125
Rebeca 120
Rocı́o 99
Benjamı́n 130
Pablo 100
Total 864

La moda o coeficiente intelectual más frecuente es 125 que se presenta en dos


entrevistados.

x f fx
10 1 10
9 3 27
8 6 48
7 4 28
6 5 30
5 2 10
4 4 16
Total 25 169

La calificación de matemáticas más frecuente en un grupo de secundaria es 8.


Este dato constituye la moda.

Mediana pMdq
Es el valor o punto en una serie que divide los valores ordenados en dos grupos de
igual tamaño. De manera que 50% de los sujetos tiene puntajes iguales o menores

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 127 — #127


i i

estadı́stica descriptiva 127

a la mediana y el otro 50% de individuos, tiene calificaciones iguales o mayores a


la mediana.
Procedimiento para datos no agrupados:
‚ Ordenar los datos de manera ascendente o descendente.
‚ Identificar la posición de la mediana, esto es, al sujeto que está justo en
medio de la distribución mediante alguna de las siguientes fórmulas. Cuando
n es par:
n`1
Md “
2
Cuando n es impar:
n
Md “
2
‚ El resultado de la fórmula se busca en las frecuencias acumuladas. A ese
dato se le conoce como posición de la mediana.
‚ Identificar el valor o calificación que pertenece al sujeto que está a la mitad
de la distribución. Ese valor corresponde al valor numérico de la mediana.
Ejemplo de datos no agrupados:
n 23
Md “ “ “ 11.5
2 2
Md “ 11.5 “ 4

x f fa
7 2 2
6 3 5
5 4 9
4 5 14
3 4 18
2 3 21
1 2 23
Total 23

El dato obtenido de la fórmula (11.5) se busca en las frecuencias acumuladas.


En este caso cae en la f a 14 en donde se encuentran los sujetos del 10 al 14.
Posteriormente se ubica el valor correspondiente al sujeto. El valor es 4. Lo que
indica que la Mediana es igual a 4.

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 128 — #128


i i

128 elsa lópez, francisco juárez, marsela álvarez

Interpretación: Se obtuvieron las calificaciones de 23 personas. Se observó que


50% de ellas obtuvieron un puntaje igual o mayor a 4.
Procedimiento para datos agrupados:
‚ Identificar la posición de la mediana, esto es, al sujeto que está justo en
medio de la distribución mediante alguna de las fórmulas anteriores.
‚ El resultado de la fórmula se busca en las frecuencias acumuladas. A ese
dato se le conoce como posición de la mediana. El intervalo donde se en-
cuentre ésta será el que se utilice en la fórmula.
‚ Identificar el valor o calificación que pertenece al sujeto que está a la mitad
de la distribución, dentro del intervalo seleccionado. Para lo cual se utiliza
la siguiente fórmula:

p0.5 ˆ nq ´ f aa
Md “ LRI ` piq
f
donde:
LRI = Lı́mite real inferior del intervalo donde se encuentra la mediana.
f aa = Frecuencia acumulada anterior.
f = Frecuencia del intervalo.
i = Tamaño del intervalo.
‚ El resultado de la fórmula es el valor numérico de la mediana.
Ejemplo de datos agrupados:
Se aplicó un examen cuya calificación mayor fue 98 y la menor 64. Elabore 7
intervalos y obtenga la mediana

x f x f x f x f x f
64 1 71 4 78 5 85 4 92 2
65 2 72 3 79 6 86 4 93 2
66 1 73 3 80 6 87 4 94 4
67 2 74 4 81 6 88 4 95 3
68 2 75 5 82 7 89 5 96 2
69 3 76 5 83 7 90 5 97 2
70 5 77 5 84 4 91 3 98 2

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 129 — #129


i i

estadı́stica descriptiva 129

i f fa LRI
64-68 8 8 63.5
69-73 18 26 68.5
74-78 24 50 73.5
79-83 32 82 78.5
84-88 20 102 83.5
89-93 17 119 88.5
94-98 13 132 93.5

n`1 133
Md “ “ “ 66.5
2 2

p0.5 ˆ nq ´ f aa p0.5 ˆ 132q ´ 50


Md “ LRI ` piq “ 78.5 ` p5q
f 32
66 ´ 50
“ 78.5 ` p5q “ 81
32
Interpretación: Se aplicó un examen a 132 personas, en el que se observó que
la calificación mayor fue 98 y la menor 64. 50% de esas personas obtuvieron una
calificación de entre 64 y 81, mientras que la otra mitad obtuvo entre 81 y 98.

MEDIDAS DE POSICIÓN

Son aquellas que se utilizan para conocer el lugar exacto que ocupa un dato dentro
de la distribución. Las medidas de distribución más populares son el cuartil, el
percentil y el decil.

Cuartiles
Son puntos que parten la distribución en cuatro partes o cuartos. El punto que
divide el cuarto inferior (25%) de los tres cuartos superiores de la distribución, es
el primer cuartil pQ1 q. El segundo cuartil pQ2 q es idéntico a la mediana, ya que
divide a la población en 2 partes iguales. El tercer cuartil pQ3 q divide el cuarto
superior de los tres cuartos inferiores de la distribución. La división se realiza de
acuerdo con la proporción de frecuencias observadas.

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 130 — #130


i i

130 elsa lópez, francisco juárez, marsela álvarez

0 25 50 75 100

Q1 Q2 Q3

Percentiles
Son puntos que dividen en centésimas (cien partes iguales) la distribución. Esto
es, son puntos bajo los cuales cae un porcentaje dado “P” de los casos. P50 es
equivalente a la mediana y al punto Q2 . Asimismo, P25 es equivalente a Q1 y, por
último, P75 equivale a Q3 .

0 25 50 75 100

P25 P50 P75 P100

Cálculo de las medidas de posición de datos NO agrupados:


Cuartiles
‚ Ordenar los datos de manera ascendente.
‚ Identificar la posición del cuartil mediante alguna de las siguientes fórmulas.
n 2n 3n
Q1 “ Q2 “ Q3 “
4 4 4
‚ El resultado de la fórmula se busca en las frecuencias acumuladas. A ese
dato se le conoce como posición del cuartil.
‚ Identificar el valor numérico del cuartil localizando la calificación que per-
tenece a la posición.
Percentiles
‚ Ordenar los datos de manera ascendente.
‚ Identificar la posición del percentil que se desea con la siguiente fórmula.
xn
Px “
100
‚ El resultado de la fórmula se busca en las frecuencias acumuladas. A ese
dato se le conoce como posición del percentil.

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 131 — #131


i i

estadı́stica descriptiva 131

‚ Identificar el valor numérico del percentil localizando la calificación que


pertenece a la posición.
Ejemplo de datos no agrupados
Se le preguntó a un grupo de padres la edad en meses en la que sus hijos habı́an
tenido la primera expresión verbal. Los datos se muestran a continuación:

13 17 15 16 15 17 15 16 15 19 17 18 15 16 21
15 16 13 17 16 18 15 15 19 16 18 19 23 17 23
17 14 16 20 18 13 15 18 16 18 20 21 20 16 16
23 18 15 18 16 16 18 16 21 16 17 22 21 17 24

Obtener los cuartiles 1, 2 y 3 y los percentiles 15 y 80.

Valores f fa % % acumulado
13 3 3 5.00 5.00
14 1 4 1.66 6.66
15 10 14 16.66 23.32
16 14 28 23.33 46.65
17 8 36 13.33 59.98
18 9 45 15.00 74.98
19 3 48 5.00 79.98
20 3 51 5.00 84.98
21 4 55 6.66 91.64
22 1 56 1.66 93.3
23 3 59 5.00 98.3
24 1 60 1.66 99.96
Total 60 99.96

60 2p60q 3p60q
Q1 “ “ 15 “ 16 Q2 “ “ 30 “ 17 Q3 “ “ 45 “ 18
4 4 4

15p60q 80p60q
P15 “ “ 9 “ 15 P80 “ “ 48 “ 19
100 100
Los resultados se interpretan de la siguiente manera:

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 132 — #132


i i

132 elsa lópez, francisco juárez, marsela álvarez

25% de los bebés dicen su primera palabra entre los 13 y los 16 meses; 50%
antes de los 17 meses; 25% entre los 18 y los 24 meses; 15% de los bebés entre los
13 y los 15 meses y 20%, que se tarda más en hablar, lo hace entre los 19 y los 24
meses.

Cálculo de las medidas de posición para datos agrupados


El procedimiento tanto para cuartiles como para percentiles es el mismo, lo único
que cambia es el multiplicador en la fórmula. Es por ello que se explicarán juntos
los procedimientos.
‚ Identificar la posición distribución mediante alguna de las fórmulas anterio-
res.
‚ Identificar el valor numérico con alguna de las siguientes fórmulas:

pxn{4q ´ f aa pxn{100q ´ f aa
Q x “ LRI ` piq P x “ LRI ` piq
f f
donde, LRI es el lı́mite real inferior del intervalo donde se encuentra la me-
dida buscada, f aa la frecuencia acumulada anterior, f la frecuencia del in-
tervalo, i el tamaño del intervalo y x el número de percentil o cuartil que se
quiere obtener.
Ejemplo de datos agrupados
Se aplicó una prueba para conocer el nivel de autoestima de un grupo de em-
pleados de una empresa. Obtener los cuartiles y los percentiles 10 y 60.

Intervalos f fa % % acumulado Punto Medio LMI


50-54 6 6 3.09 3.09 52 49.5
55-59 12 18 6.18 9.27 57 54.5
60-64 21 39 10.82 20.09 62 59.5 P10
65-69 32 71 16.49 36.59 67 64.5 Q1
70-74 46 117 23.71 60.29 72 69.5 Q2 P60
75-79 39 156 20.10 80.39 77 74.5 Q3
80-84 20 176 10.30 90.69 82 79.5
85-89 18 194 9.27 99.96 87 84.5
Total 194 99.96

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 133 — #133


i i

estadı́stica descriptiva 133

194 2p194q 3p194q


Q1 “ “ 48.5 Q2 “ “ 97 Q3 “ “ 145.5
4 4 4

10p194q 60p194q
P10 “ “ 19.4 P60 “ “ 116.4
100 100

p0.25 ˆ nq ´ f aa p0.25 ˆ 194q ´ 39


Q1 “ LRI ` piq “ 64.5 ` p5q
f 32
48.5 ´ 39
“ 64.5 ` p5q “ 65.98
32
p0.5 ˆ nq ´ f aa p0.5 ˆ 194q ´ 71
Q2 “ LRI ` piq “ 69.5 ` p5q
f 46
97 ´ 71
“ 69.5 ` p5q “ 72.32
46
p0.75 ˆ nq ´ f aa p0.75 ˆ 194q ´ 117
Q3 “ LRI ` piq “ 75.5 ` p5q
f 39
145.5 ´ 117
“ 75.5 ` p5q “ 79.15
39
p10pnq{100q ´ f aa p10p194q{100q ´ 18
P10 “ LRI ` piq “ 59.5 ` p5q
f 21
19.4 ´ 18
“ 59.5 ` p5q “ 59.83
21
p60pnq{100q ´ f aa p60p194q{100q ´ 71
P60 “ LRI ` piq “ 69.5 ` p5q
f 46
116.4 ´ 71
“ 69.5 ` p5q “ 74.43
46

Los resultados se interpretan de la siguiente manera:


25% de los sujetos obtuvo 65.98 o menos en la prueba; 50% de los empleados
obtuvo más de 72.32; 75% sacó de 79.15 para arriba en la prueba, estos son los que
tienen una mayor autoestima. Además, 60% de los empleados obtuvo un puntaje
menor o igual a 74.43, mientras sólo 10% tiene menos de 59.83; esto es, los de
menor autoestima en el grupo.

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 134 — #134


i i

134 elsa lópez, francisco juárez, marsela álvarez

Medidas de dispersión o variabilidad


Las dos caracterı́sticas más importantes de cualquier conjunto de datos son:
‚ Su tendencia central.
‚ Su variabilidad o dispersión.
Estos conceptos nos sirven para resumir las caracterı́sticas principales de un con-
junto de datos. Ambos, son requisito indispensable para poder interpretar una ob-
servación.
Las medidas de tendencia central están relacionadas con el promedio o valor
tı́pico o representativo de la distribución. Mientras que la variabilidad entre los
valores, se refiere a qué tan grandes son las diferencias entre ellos.
Las medidas de variabilidad cuantifican el grado de dispersión o la extensión
de las diferencias individuales en la distribución.
Las medidas de dispersión son:
‚ Valor mı́nimo y máximo.
‚ Rango.
‚ Varianza.
‚ Desviación estándar o tı́pica.

Valores mı́nimo y máximo


Estos valores sirven para describir a la población y funcionan como indicadores
para determinar dónde se encuentran los sujetos con respecto a la variable evalua-
da. Asimismo, van a utilizarse para obtener el rango de la distribución.

Rango o amplitud
El rango mide la extensión total de un conjunto de datos y se calcula utilizando
únicamente dos números. Para encontrar el rango se restan los dos extremos de la
medición, la medición más grande menos la medición más pequeña.

R “ X MAX ´ X MIN

El rango sirve para describir la distribución de datos y se interpreta como el


valor que indica la cantidad de unidades que se encuentran comprendidas entre el
valor mı́nimo y el valor máximo de la distribución. Se interpreta como el valor que
indica la amplitud de la base de la curva de distribución.
El rango de la muestra aun cuando es fácil de calcular, a menudo es califi-
cado de ineficiente porque ignora toda la información disponible en los valores

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 135 — #135


i i

estadı́stica descriptiva 135

intermedios de la muestra. Sin embargo, para muestras pequeñas, la eficiencia es


suficientemente alta. Ası́, el rango de la muestra goza de una aceptación favora-
ble y uso amplio, debido a la facilidad para calcularlo en aplicaciones estadı́sticas
como control de calidad, donde las muestras son pequeñas.
Ejemplo:
Durante un mes determinado del verano, los ocho vendedores de aparatos
electrónicos de una empresa vendieron el siguiente número de ventiladores: 8, 11,
5, 14, 8, 11, 16, 11. Obtener el rango.

R “ X MAX ´ X MIN R “ 16 ´ 5 “ 11 unidades

Interpretación: La amplitud de lo vendido es de 11, lo que indica que hay una


diferencia de 11 unidades entre el que más vendió y el que menos vendió.

Varianza
Es una medida de dispersión que se abrevia S 2 e indica qué tanto se alejan los
datos en relación con la media. La varianza se basa en el cuadrado de la diferencia
entre cada uno de los valores del conjunto de datos y la media del grupo.
La varianza considera la distancia de cada medida con respecto a la media; esta
distancia se llama desviación. Si una sola medición cae a la izquierda de la media
sobre una gráfica de datos, se dice que la medida tiene una desviación negativa
con respecto a la media; si cae a la derecha de la media, se dice que tiene una
desviación positiva. Si tratamos de calcular la distancia promedio de cada medida
con respecto a la media, la suma de las desviaciones positivas invalida la suma
de las desviaciones negativas. El resultado de la suma numérica es cero, es decir,
representa una medida inútil de variabilidad. Para evitar este problema se elevan
las desviaciones al cuadrado (de este modo se eliminan los signos negativos) y
entonces, se promedia la suma de los cuadrados. Este cálculo produce la varianza
que indica la desviación con respecto a la media de cada medida de la muestra.
La varianza para datos agrupados se obtiene restando el punto medio del inter-
valo mayor del punto medio del intervalo más pequeño, obteniendo ası́ los valores
de x.
La varianza se obtiene mediante las siguientes fórmulas:
Para datos no agrupados:

px ´ x̄q2
ř
2
S “
n

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 136 — #136


i i

136 elsa lópez, francisco juárez, marsela álvarez

Para datos agrupados:


p f x ´ x̄q2
ř
2
S “
n
La varianza no tiene una interpretación descriptiva, pero es básica para el
cálculo de análisis estadı́sticos más avanzados.
Ejemplo:
A continuación se presentan varias muestras de calificaciones obtenidas por
cuatro grupos en una prueba.

Conjunto Calificaciones de la prueba Media


1 70, 70, 70, 70, 70 70
2 68, 69, 70, 71, 72 70
3 60, 70, 70, 70, 80 70
4 60, 65, 70, 75, 80 70

En los cuatro conjuntos la media es la misma: 70, pero los conjuntos son, desde
luego, completamente diferentes. No hay variabilidad alrededor de la media en el
conjunto uno, mientras que existe una gran variabilidad alrededor de la media en
el conjunto cuatro. Es obvio que la media en sı́ misma no refleja en forma alguna la
variabilidad de estas calificaciones. Por tanto, para encontrar el número que refleje
la variabilidad de las calificaciones de la prueba se emplea el rango, mediante el
cual se determina la diferencia entre la calificación más alta y la más baja.

Conjunto Calificaciones de la prueba Media Rango


1 70, 70, 70, 70, 70 70 0 (70 ´ 70 “ 0)
2 68, 69, 70, 71, 72 70 4 (72 ´ 68 “ 4)
3 60, 70, 70, 70, 80 70 20 (80 ´ 60 “ 20)
4 60, 65, 70, 75, 80 70 20 (80 ´ 60 “ 20)

Como puede observarse, el rango sólo toma la medida mayor y menor, ası́ que
para considerar todas las medidas se utiliza la varianza, la cual tiene en cuenta la
distancia de cada medida con respecto a la media. A continuación se desglosa el
cálculo de la varianza de uno de los conjuntos de calificaciones.
Como N “ 5, la varianza es igual a:

px ´ x̄q2
ř
2 10
S “ “ “2
n 5

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 137 — #137


i i

estadı́stica descriptiva 137

Valor Media Desviación Desviación al cuadrado


px ´ x̄q2
ř
x̄ px ´ x̄q
68 70 ´2 p´2q2 “ 4
69 70 ´1 p´1q2 “ 1
70 70 0 02 “ 0
71 70 1 12 “ 1
72 70 2 22 “ 4
Total = 350 Total = 0 px ´ x̄q2 “ 10
ř

Si de la misma manera calculamos la varianza para cada conjunto, los resul-


tados nos indican que a mayor variabilidad en los datos mayor será la varianza,
aunque la media de cada conjunto sea la misma.

Conjunto Calificaciones de la prueba Media Rango Varianza


1 70, 70, 70, 70, 70 70 0 (70 ´ 70 “ 0) 0
2 68, 69, 70, 71, 72 70 4 (72 ´ 68 “ 4) 2
3 60, 70, 70, 70, 80 70 20 (80 ´ 60 “ 20) 40
4 60, 65, 70, 75, 80 70 20 (80 ´ 60 “ 20) 50

Desviación estándar o tı́pica psq


La desviación estándar equivale al promedio de la variabilidad de los datos. Es una
medida de dispersión utilizada en la interpretación de los datos. Sirve para conocer
la normalidad de una distribución, puesto que la normalidad refiere la suma y resta
de dos desviaciones a la media.
Su fórmula es:
Para datos no agrupados:

px ´ x̄q2
s“
n
Para datos agrupados: cř
p f x ´ x̄q2
s“
n
Se interpreta como el dato que refiere el promedio de la distancia en la que se
encuentran las puntuaciones con respecto a la media. Si la desviación estándar es

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 138 — #138


i i

138 elsa lópez, francisco juárez, marsela álvarez

pequeña con respecto a la media, indica que las calificaciones son homogéneas,
es decir están muy cercanas, pero si es grande, las puntuaciones son heterogéneas,
esto es, muy diferentes entre sı́.
Ejercicio de datos no agrupados
Obtener la media y la desviación estándar de la edad de los asistentes a un
curso de capacitación:

Edad x ´ x̄ px ´ x̄q2
25 ´12.88 165.89
27 ´10.88 118.37
32 ´5.88 34.57
33 ´4.88 23.81
38 0.12 0.01
39 1.12 1.25
43 5.12 26.21
48 10.12 102.41
56 18.12 328.33
Total 341 800.89

ř cř c
x 341 px ´ x̄q2 800.89
x̄ “ x̄ “ “ 37.88 s“ s“ “ 9.43
n 9 n 9
El promedio de la edad de los asistentes es 37.88 años y el promedio de la
distancia en la que se encuentran las edades con respecto a la media es 9.43. Esto
significa que las edades se desvı́an en promedio 9 años hacia arriba y hacia abajo
de la media.
Ejercicio para datos agrupados
Se aplicó una prueba de matemáticas a 200 estudiantes que deseaban ingresar
a la Licenciatura en Ingenierı́a. Obtener la media y la desviación estándar.
ř
fx
x̄ “ “ 10998{200 “ 54.99
n

cř c
px ´ x̄q2 3065.76
S “ “ “ 15.32
n 200

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 139 — #139


i i

estadı́stica descriptiva 139

Calificaciones f pm pxq fx x ´ x̄ px ´ x̄q2


32-34 2 33 66 ´21.99 479.61
35-37 4 36 144 ´18.99 357.21
38-40 4 39 156 ´15.99 252.81
41-43 16 42 672 ´12.99 166.41
44-46 16 45 720 ´9.99 98.01
47-49 18 48 864 ´6.99 47.61
50- 52 22 51 1122 ´3.99 15.21
53-55 22 54 1188 ´0.99 0.81
56-58 24 57 1368 2.11 4.41
59-61 22 60 1320 5.11 26.01
62- 64 16 63 1008 8.11 65.61
65-67 12 66 792 11.11 123.21
68-70 10 69 690 14.11 198.81
71-73 6 72 432 17.11 292.41
74-76 4 75 300 20.11 404.01
77-79 2 78 156 23.11 533.61
Total 200 10998 3065.76

El promedio de las calificaciones de la prueba de matemáticas es 54.99, mien-


tras que el promedio de la distancia en la cual se encuentran las calificaciones
con respecto a la media es 15.32. Esto indica que las calificaciones se desvı́an 15
puntos por arriba y por abajo del promedio o media.
Las medidas de tendencia central, por sı́ solas, no son suficientes, lo cual puede
comprobarse si se considera el hecho de que dos o más conjuntos de datos pueden
tener la misma media, mediana o moda sin que dichos conjuntos sean los mismos.
Por lo tanto, son necesarias también las medidas de variabilidad o dispersión para
describir los valores de forma más individual.

Curvas de distribución de frecuencias


Las curvas de distribución de frecuencias derivan de histogramas o polı́gonos de
frecuencias que se sustituyen por una curva suavizada, el área bajo la curva repre-
senta al total de los casos en la población y es igual a una proporción de 1 o un
porcentaje igual a 100% (Ritchey, 2008). Basadas en las gráficas que existen para
representar los datos encontrados en variables numéricas, existen variaciones de

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 140 — #140


i i

140 elsa lópez, francisco juárez, marsela álvarez

las mismas que permiten conocer cómo se distribuyen los datos del fenómeno es-
tudiado (Hopkins, Hopkins & Glass, 1997). Entre las distribuciones se encuentran:
Rectangular. Distribución simétrica con una frecuencia constante para todos
los valores. Por ejemplo, nacimientos por cada dı́a de la semana. No tiene una
moda ya que todos los valores tienen aproximadamente la misma frecuencia. La
media y la mediana pueden ser las mismas.

Número de personas que consultan la página de la


Secretaría de Salud

16000

11000

6000

1000

Bimodal. Cuando existen 2 modas en la distribución. Por ejemplo, en la dis-


tribución de las estaturas de hombres y mujeres, ya que sus estaturas difieren ge-
neralmente. Puede ser que una moda sea ligeramente más pequeña que la otra, en
ese caso se habla de moda mayor y menor. Esta distribución también se presenta
cuando las opiniones hacia un fenómeno se encuentran polarizadas. Por ejemplo,
la actitud hacia el aborto. La media y la mediana pueden no ser de utilidad para
describir los datos.

Estaturas de hombres y mujeres

f  

Estatura en cm

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 141 — #141


i i

estadı́stica descriptiva 141

Asimétricas. Son distribuciones que no son iguales para ambos lados. La asi-
metrı́a puede ser desde ligera hasta muy extrema. Dependiendo de la dirección
pueden ser:
‚ Positivas. Se alarga hacia la derecha, hacia el extremo de valores más alto.
Por ejemplo: número de faltas a una materia en un semestre.
‚ Negativas. Se alarga hacia la izquierda, hacia el extremo de valores más
bajo. Por ejemplo: las calificaciones de un examen muy fácil.
En las distribuciones asimétricas la media es jalada hacia los valores extremos de
la cola, por lo que en la positiva es mayor que la mediana y la moda, mientras que
en la negativa es menor.
Normal. Se llama distribución de campana o distribución normal. Tiene dos
caracterı́sticas principales:
‚ Es simétrica respecto a la lı́nea vertical de la mediana (Asimetrı́a = 0)
‚ La moda y la media son iguales a la mediana
‚ Unimodal
‚ 96% de la población cae dentro (normal) y 4% cae fuera (anormal)
‚ Por ejemplo, la estatura de las mujeres.
Para saber el grado en que una curva de distribución se parece a una curva normal,
se utilizan dos medidas: curtosis y asimetrı́a.

MEDIDAS DE DISTRIBUCIÓN

Curtosis
Describe el grado en que las proporciones observadas difieren de las de la curva
normal. Se refiere a la amplitud de la curva en una distribución normal, esto es, la
agudeza que presenta el perfil de una curva unimodal.
La curtosis está relacionada con el número de sujetos que estamos observando.
En la medida que el número de sujetos es más pequeño, la curva se hace más ancha
y conforme crece el número de sujetos la curva es menos ancha y se parece más a
una distribución normal.
De acuerdo con la curva se van a reflejar las distribuciones que pueden ser de
3 tipos:
Cuando los puntajes obtenidos al aplicar una prueba psicológica tienden a
agruparse en el centro de la distribución en un intervalo reducido de valores, se
tiene una curva aguda o leptocúrtica. Cuando esto ocurre, se dice que el grupo es
homogéneo con respecto a lo que se mide. Cuando el resultado de la curtosis es

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 142 — #142


i i

142 elsa lópez, francisco juárez, marsela álvarez

positivo y mayor a 1, indica que hay más casos en medio de la curva que en una
distribución normal.

>  1  

Si el intervalo en el que tienden a agruparse los puntajes de un grupo no es tan


reducido, la curva se denomina semiaguda o mesocúrtica. Esta equivale a la curva
normal. La distribución normal tiene una curtosis igual a 1. Entre más se aleje este
valor del 1, menos se parecerá a una distribución normal estricta.

=  1  

Un caso opuesto a la curva leptocúrtica es el que corresponde a una distribu-


ción donde existe un intervalo amplio de puntajes con una agrupación mı́nima en
el centro. A esta curva se le llama aplanada o platocúrtica. Los datos en esta dis-
tribución son heterogéneos entre sı́. Una curtosis menor a 1 o negativa indica más
casos en los extremos de la curva que en una distribución normal.

<  1  

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 143 — #143


i i

estadı́stica descriptiva 143

Asimetrı́a o sesgo (Skewness)


Describe la falta de simetrı́a en una distribución. La asimetrı́a pAsq se presenta
cuando una curva de distribución, en una de sus colas se extiende más lejos que la
otra en una dirección.
Existen dos tipos de asimetrı́a:
Sesgo Negativo: Describe distribuciones asimétricas en las que la mediana ex-
cede a la media, la cola de la distribución es hacia los valores bajos. Cuando la
cola se extiende hacia la izquierda, el valor del estadı́stico es negativo.

Negativa
As < 0

Sesgo Positivo: Describe distribuciones asimétricas en las que la media exce-


de a la mediana, la cola de la distribución es hacia los valores altos. Es cuando
está más extendida la cola de la derecha de la curva, el valor del estadı́stico es
positivo.

Positiva
As > 0

Si la asimetrı́a es igual a cero, se trata de una curva simétrica, es decir una


curva normal.
El llamado coeficiente de asimetrı́a se calcula con la siguiente fórmula:
x̄ ´ Mo
As “
s
donde:
As = Coeficiente de asimetrı́a de Pearson
Mo = Moda

i i

i i
i i

“”Apuntes para la Investigacion en Salud”” — 2014/12/8 — 15:24 — page 144 — #144


i i

144 elsa lópez, francisco juárez, marsela álvarez

x̄ = Media aritmética muestral


s = Desviación estándar muestral

Normal
As = 0

DISTRIBUCIÓN NORMAL O CURVA NORMAL (CAMPANA DE GAUSS)

La curva normal es un modelo teórico o ideal sobre cómo debe comportarse la dis-
tribución de las variables en una muestra, se obtiene de una ecuación matemática.
Se utiliza como parámetro de comparación para diferentes fenómenos (Ritchey,
2008). Sus principales caracterı́sticas son:
‚ Las variables que representan deben ser numéricas, esto es, con un nivel de
medición intervalar o de razón.
‚ Representa una curva de distribución de frecuencias en la que la mediana, la
moda y la media de una variable son iguales y dividen en dos partes iguales
a la distribución.
‚ Tiene forma de campana.
‚ Es geométricamente simétrica, lo cual indica que la mitad derecha es el es-
pejo perfecto de la mitad izquierda.
‚ Aunque los valores de la media y la desviación estándar cambiaran depen-
diendo de las variables observadas, cada curva normal es simétrica y tiene
siempre el mismo porcentaje de observaciones que cae entre la media y las
desviaciones.
‚ Permite conocer la distribución de situaciones reales.
Muchas variables como la inteligencia medida en términos de Coeficiente In-
telectual (CI), se distribuyen en la población tomando la forma de la curva normal,
en que la mayorı́a de los casos se encuentran en el centro (Moda), existiendo po-
cos casos en los extremos, siguiendo el ejemplo del CI, existen pocos sujetos con
inteligencia muy baja por un lado y pocos genios por el otro, esto es lo que da a la
curva normal su caracterı́stica forma de campana (Ritchey, 2008).

i i

i i

También podría gustarte