Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medidas Basicas
Medidas Basicas
ndice
1. Medidas de tendencia central .....................................................................................................
1.2. La mediana............................................................................................................................
10
10
11
13
16
16
17
17
17
19
20
21
21
23
[1]
1.2. La mediana
La mediana es el valor que divide las frecuencias en dos mitades iguales: por encima de la
mediana y por debajo de la mediana encontramos el mismo nmero de sujetos.
La mediana es otro valor de tendencia central muy til. La mediana podemos buscarla, al menos
de manera aproximada, por simple inspeccin de los datos en una distribucin de frecuencias; el clculo
preciso lo veremos en el contexto de los percentiles (la mediana corresponde al percentil 50: el valor que
deja por debajo a la mitad de la muestra).
1.3. La moda
La moda es simplemente la puntuacin que tiene una mayor frecuencia (donde encontramos un
mayor nmero de casos).
Como medida de tendencia central es muy poco rigurosa. Adems podemos encontrarnos con que
puede haber ms de una puntuacin con idntico nmero de casos, o al menos dos o ms puntuaciones
con una frecuencia que superan notablemente al resto de los valores de la distribucin (y por eso
hablamos de distribuciones bimodales, o plurimodales; si dibujamos la curva o un polgono de
frecuencias, nos encontraremos con dos o ms picos pronunciados).
1.4. Comparacin de las medidas de tendencia central
Los conceptos de media, mediana y moda son sencillos; lo que ms nos interesa ahora es apreciar
sus diferencias y caractersticas; sobre todo nos interesa comparar la media y la mediana.
1. Cuando la distribucin no es normal (no es simtrica) y hay ms sujetos por encima o por debajo
de la media, la mediana es arrastrada hacia la zona de la distribucin donde hay un mayor nmero de
sujetos (ejemplos en la tabla 1).
moda = 2 (puntuacin con mayor nmero de casos)
mediana = 2.5 (idntico nmero de sujetos
*
*
1
*
*
*
*
2
media = 3.42
*
*
3
4
*
*
*
6
moda = 7
*
7
*
*
*
*
1
mediana = 5.5
media = 4.5
*
4
*
5
*
6
*
*
*
*
*
7
Tabla 1
Cuando la mediana es distinta de la media (la distribucin no es simtrica, est sesgada hacia un
lado de la distribucin), el valor de la mediana nos indica el sesgo de la distribucin: si la mediana es
mayor, hay ms sujetos en la parta alta de la distribucin, y si la mediana es menor que la media, hay ms
sujetos en la parte baja de la distribucin. Precisamente en esta diferencia entre la media y la mediana se
basan algunas medidas de asimetra de la distribucin.
2. La mediana no se ve afectada por las puntuaciones extremas de la distribucin.
Esta caracterstica de la mediana es la que hay que tener en cuenta para valorar cundo nos puede
interesar ms la mediana que la media (o adems de la media) como medida de tendencia central.
Lo vemos fcilmente en estos dos ejemplos ficticios (tabla 2):
Caso 1
6 |||||||||| (10)
5 |||||
(5)
4 |||||
(5)
3
2
1
Caso 2
La mediana es 5.5; es la
puntuacin que divide a la
muestra en dos mitades iguales
(10 sujetos por encima y 10
sujetos por debajo); la media es
5.25
6 ||||||||||
5 |||||
4
3
2
1 |||||
(10)
(5)
(5)
Tabla 2
Nos interesar utilizar la mediana cuando creamos que los sujetos con puntuaciones extremas
desvirtan la media en cuanto medida representativa de dnde est un grupo; las puntuaciones muy
extremas (y que pueden ser atpicas) influyen en la media (en el clculo de la media entran todas las
puntuaciones), pero no en la mediana. ste puede ser el caso de los tems de evaluacin del profesorado;
un pequeo nmero de alumnos poco representativos puede sesgar la media en una direccin (positiva o
negativa) que no refleja el sentir o la opinin claramente mayoritaria de un grupo. En cualquier caso
siempre es posible aportar ambos datos, la media y la mediana.
La moda (en los dos casos de la tabla 2 corresponde a la puntuacin 6) tampoco se ve afectada por
puntuaciones muy extremas, pero la alternativa de inters a la media suele ser la mediana, no la moda.
En general nos interesar la mediana en vez de la media cuando los datos sean claramente
ordinales y siempre que interese no tener en cuenta puntuaciones muy extremas. La mediana es el valor
utilizado en algunos anlisis especficos1.
3. La media se presta a muchos ms anlisis estadsticos de inters.
Esta es una ventaja clara, y frecuentemente decisiva, de la media sobre las otras medidas de
tendencia central, y es la que utilizaremos rutinariamente; adems en el clculo de la media se utiliza toda
la informacin disponible.
Esta razn tiene ms peso en estadstica inferencial, cuando pretendemos inferir la media de una
poblacin (al menos ver entre qu limites probables se encuentra) a partir de los datos de una muestra;
con este planteamiento (y en otros semejantes) solemos utilizar la media; con un propsito meramente
descriptivo utilizaremos la medida que ms nos convenga (o ms de una).
4. En la distribucin normal coinciden los valores de la media, la mediana y la moda.
En los ejemplos puestos hasta ahora, la media, la mediana y la moda tienen valores distintos;
cuando la distribucin es normal (simtrica, acampanada) los tres valores de tendencia central son
idnticos: la media es tambin el valor con un mayor nmero de sujetos y divide a la muestra en dos
mitades iguales, como podemos ver en la distribucin de frecuencias de la tabla 3
9
8
7
6
5
4
3
2
1
|
|||
||||
||||||||
media
|||||||||||| 5 = mediana
||||||||
moda
||||
|||
|
Tabla 3
Como veremos a continuacin, cada medida de tendencia central se utiliza junto con otra medida
de dispersin o de variabilidad, que completa el tipo de informacin o resumen aportado por estas
medidas de tendencia central.
moda o puntuacin ms frecuente. Sin embargo la medida ms utilizada como dato descriptivo que
resume dnde est un grupo es la media aritmtica.
La limitacin de la media aritmtica (y de otras medidas semejantes) como dato que describe
adecuadamente los resultados obtenidos en un grupo, podemos verlo con un sencillo ejemplo.
Imaginemos que a dos clases (de cuatro alumnos cada una, para simplificar el ejemplo) les
ponemos un examen de 20 preguntas objetivas. Cada pregunta puede estar bien (y vale 1) o mal (y vale
0). Obtenemos los resultados puestos en la tabla 4 y vemos que los dos grupos tienen idntica media.
Grupo A
20
20
0
0
media = 10
Grupo B
10
10
10
10
media = 10
Tabla 4
Podemos decir que se trata de dos grupos muy parecidos porque tienen la misma media? No, son
grupos muy distintos. El grupo A es muy heterogneo, en este grupo A se puede decir que hay dos
subgrupos muy diferenciados; el grupo B en cambio es muy homogneo, todos tienen idntica
puntuacin.
Las medidas de dispersin complementan la informacin que nos da tanto la media (aqu vamos a
poner el nfasis por ser la medida ms til y utilizada) como la mediana o la moda; estas medidas de
dispersin expresan en qu grado los grupos son ms bien homogneos, con los sujetos muy parecidos
unos a otros (como en el grupo B), o ms bien se trata de grupos heterogneos, con mayores diferencias
entre los sujetos (como en el grupo A). La medida de dispersin ms til y utilizada es la desviacin
tpica, que se utiliza siempre que se calcula la media como la medida de tendencia central.
Las medidas de dispersin que vamos a ver son las siguientes:
a) En relacin
con la media:
b) En relacin
con la mediana
c) En relacin
con la moda:
media = 5
Grupo A
d=-2
media = 5
Grupo B
d = -2
d = -3
d =- 1 d = -1
d=+3
d =- 2
d=+2
Diferencia media con respecto a la media grupal = 1.5 Diferencia media con respecto a la media grupal = 2.5
Figura 1
1. Tenemos dos grupos, A y B, cada uno con cuatro sujetos.
Las puntuaciones del grupo A son 3, 4, 6 y 7.
Las puntuaciones del grupo B son 2, 3, 7 y 8.
2. Ambos grupos tienen idntica media, X = 5
3. Cada sujeto tiene una desviacin (d) con respecto a la media ( X ) de su grupo: unos porque no
llegan a la media y otros porque se pasan y tienen una puntuacin superior a la media. Si un sujeto
tuviera una puntuacin idntica a la media, su desviacin valdra d = 0, pero sigue siendo vlido el
concepto de desviacin con respecto a la media (cero en este caso).
4. Si dentro de cada grupo sumamos las desviaciones individuales (en valores absolutos,
prescindiendo del signo) y dividimos esta suma por el nmero de sujetos, tendremos la desviacin media
del grupo (d ) :
d=
d
N
[2]
2 +1 + 1 + 2
= 1.5
4
3+ 2 + 2 + 3
= 2.5
4
5. Aunque ambos grupos tienen idntica media, son grupos muy distintos. A simple vista se observa
que el grupo A es ms homogneo que el grupo B; en el grupo B los sujetos se apartan ms de la media.
Aunque los dos grupos tienen idntica media, la dispersin del grupo B es mayor que la dispersin del
grupo A (o, lo que es lo mismo, el grupo A es ms homogneo que el grupo B). Consecuentemente el
grupo A tiene una desviacin media ms pequea.
La desviacin media nos indica por lo tanto el grado de dispersin, de homogeneidad, de parecido
de unos sujetos a otros. Una misma media de 5 puede proceder de un grupo en el que todos tienen un 5
(dispersin = 0, grupo muy homogneo, todos los sujetos son iguales), y una media de 5 tambin puede
proceder de un grupo en el que la mitad de los sujetos tuvieran un 0 y la otra mitad un 10: una misma
media puede corresponder a grupos muy distintos y dar por lo tanto una informacin descriptiva
incompleta que se presta a conclusiones falsas o equvocas (por ejemplo, una renta media per capita muy
elevada es compatible con importantes bolsas de pobreza en la poblacin).
1 Cuando se trata de la desviacin tpica que describe la dispersin de una muestra (que es lo que
hacemos normalmente):
(X - X )
[3]
d2
o tambin
x2
La letra x (equis minscula) es un smbolo habitual de la puntuacin diferencial de cada sujeto, que
es simplemente la desviacin o diferencia de cada sujeto con respecto a la media, d = x = X- X
2 Cuando se trata de la estimacin de la desviacin tpica de la poblacin representada por una
muestra se utiliza la frmula [4].
=
(X - X) 2
N -1
[4]
En este caso se trata de la estimacin de la desviacin tpica de una poblacin calculada a partir de
los datos de una muestra. Al dividir por N-1 (y disminuir el denominador) aumenta el cociente: la
desviacin tpica de una poblacin suele ser mayor que la desviacin tpica de una muestra, porque al
aumentar el nmero de sujetos es ms probable que haya sujetos con puntuaciones muy extremas (o muy
altas o muy bajas) y consecuentemente aumentar la desviacin tpica. Con nmeros grandes apenas hay
diferencia (a efectos prcticos da lo mismo dividir por 500 que dividir por 499), pero con nmeros
pequeos la diferencia puede ser importante.
2 Sobre el smbolo de la desviacin tpica hacemos una observacin para evitar confusiones. Aqu utilizamos siempre la letra ese
griega minscula () como smbolo de la desviacin tpica de la muestra, que es la que vamos a utilizar habitualmente,
incluso es frecuente designar a la desviacin tpica por el nombre del smbolo (sigma). Aunque no hay una prctica uniforme,
s conviene advertir que tambin es frecuente utilizar este smbolo () para expresar la desviacin tpica estimada de la
poblacin (N-1en el denominador), y reservar la letra s, ese latina, para expresar la desviacin tpica de la muestra (N en el
denominador).
De la frmula [3] (dividiendo por N) a la [4] (dividiendo por N-1) y viceversa se pasa con facilidad.
La desviacin tpica [3] la simbolizamos ahora como n y la desviacin tpica de la frmula [4] la
simbolizamos como n-1 para evitar confusiones.
El paso de [3] a [4] se capta con facilidad. Si despejamos (X - X) 2 en la frmula [3] tenemos que
(X - X) 2 = N
n-1 =
2
n
N n2
N -1
[5]
[6]
n a partir de n-1:
n = 3.055
n-1 a partir de n
n-1 =
n = 2.494
n-1 = 3.055
3 1
= (3.055)(.816496) = 2.494
3
(3)(2.4944) 2
=
3 -1
18.666
= 3.055
2
De estas frmulas es de especial la [6] porque algunos programas de ordenador dan rutinariamente
la desviacin tpica de la poblacin (n-1) cuando la que con frecuencia interesa es la desviacin tpica de
la muestra (n).
2.2.2. La varianza
1. La varianza es simplemente la desviacin tpica elevada al cuadrado: 2 =
(X X) 2
[7]
Ya hemos visto que el numerador de la varianza (la suma de las desviaciones individuales elevadas
previamente al cuadrado) puede expresarse as:
2
(X- X ) = N2
De esta manera se simplifican bastante algunas operaciones del anlisis de varianza que no vemos
en este momento. Este numerador de la varianza se denomina tambin suma de cuadrados.
2. La varianza se interpreta de la misma manera que la desviacin tpica: cuantifica la dispersin de
una serie de puntuaciones. La interpretacin de la desviacin tpica y de la varianza es la misma, aunque
obviamente las magnitudes sern distintas.
La varianza es mayor que la desviacin tpica cuando la desviacin tpica es > 1,
La varianza es menor que la desviacin tpica cuando la desviacin tpica es < 1
Como dato descriptivo es ms frecuente el uso de la desviacin tpica que el de la varianza (aunque
se utilizan los dos).
10
media
desviacin tpica
Caso A
Caso B
(= A +2)
1
5
9
5
3.266
3
7
11
11
3.266
Tabla 5
En el caso B hemos sumado dos puntos a cada sujeto del caso A; las medias son distintas (sube en
dos puntos en el caso B), pero la desviacin tpica es la misma porque las diferencias interindividuales
son las mismas.
11
2. Si multiplicamos las puntuaciones directas por una constante, la desviacin tpica queda
multiplicada por esa misma constante y la varianza queda multiplicada por el cuadrado de esa constante.
Lo vemos tambin con un ejemplo: las puntuaciones del caso A las multiplicamos por 2 (tabla 6).
media
Caso A
Caso B
(= A x 2)
1
5
9
5
2
10
18
10
6.53
(= 3.266x2)
42.67
(= 10.67x22)
desviacin tpica
3.266
varianza
10.67
Tabla 6
3. La varianza en particular tiene una propiedad que la hace sumamente til en algunos anlisis: la
varianza se puede descomponer segn diversos orgenes de la variacin. Estas aplicaciones se ven en las
tcnicas de anlisis de varianza.
12
puede ser poco discriminante y consecuentemente no detecta diferencias que de hecho hay. El
grupo puede ser muy homogneo pero slo tal como lo mide un instrumento determinado. Por
ejemplo, no es lo mismo poner como respuestas de un cuestionario s o no (a lo mejor todos
responden s) que poner s, ms bien s, ms bien no y no: puede suceder que los que responden
s (si slo pueden escoger entre s y no) se dividan entre el s y el ms bien s.
De manera semejante una desviacin tpica muy pequea en un test de conocimientos puede
indicar no que el grupo es realmente muy homogneo (sujetos muy iguales) sino que el examen
es muy fcil (todos o casi todos saben todo) o muy difcil (casi nadie sabe nada): puede haber
diferencias en esos conocimientos que no se detectan con ese test; el grupo es ms heterogneo
de lo que manifiesta esa desviacin tpica pequea.
c) Si se trata de calificaciones, una desviacin tpica pequea puede indicar que el profesor matiza
poco, pone notas muy iguales.
En general una desviacin tpica pequea puede indicar que el procedimiento o instrumento
utilizado para recoger los datos no recoge suficientemente diferencias que de hecho existen. El no
detectar diferencias repercute por otra parte en otros anlisis estadsticos (por ejemplo en el clculo de
coeficientes de correlacin: no se detectan relaciones si no hay diferencias claras entre los sujetos).
3. No hay un valor ideal de la desviacin tpica que pueda servir de referencia; cundo es grande o
pequea se aprecia comparando unas con otras. Dos desviaciones tpicas pueden compararse entre s
directamente (lo mismo que dos varianzas) si provienen de datos comparables (unidades comparables, la
misma escala mtrica).
En ocasiones puede ser de utilidad conocer cul es el valor mximo posible de la desviacin tpica;
este valor mximo posible es igual a:
puntuacin mxima posible puntuacin ms baja posible
2
[8]
Por ejemplo hacemos un pregunta con cinco respuestas (5 = totalmente de acuerdo, 4 = de acuerdo,
3 = indiferente, 2 = en desacuerdo y 1 = en total desacuerdo), la puntuacin mxima posible es 5 y la
puntuacin ms baja posible es 1; en este caso la desviacin tpica mayor posible es (5 - 1)/2 = 2.
Esta referencia suele ser poco til porque este valor mximo es difcilmente alcanzable en la
mayora de las situaciones. Cuando los valores son 1 y 0 (s o no, bien o mal, etc.), la desviacin tpica
mayor posible es (1 - 0)/2 = .50. Esta referencia con este tipo de datos es especialmente til, porque en
estos casos (respuesta 1 0) s es ms frecuente que la desviacin tpica obtenida sea la mayor posible o
se aproxime mucho a la mayor posible (ampliamos estos comentarios al tratar despus de las
puntuaciones dicotmicas).
4. La desviacin tpica indica qu puntuacin parcial pesa ms en una media final; a mayor
desviacin tpica, mayor peso en la media final. En determinadas situaciones esta informacin puede ser
muy til.
El que la puntuacin parcial con una mayor desviacin tpica pese ms en una media final es por
otra parte lgico: si todos reciben la misma o casi la misma puntuacin (lo que supone una desviacin
tpica muy pequea), no se establecen diferencias; si por el contrario se asignan puntuaciones muy
distintas a los sujetos (desviacin tpica grande) en una puntuacin parcial, las diferencias en la media
final dependern ms de esas ocasiones en las que se asignaron puntuaciones (o notas) muy distintas.
Lo podemos ver intuitivamente con un ejemplo ficticio (tabla 7). Supongamos que tres
examinadores (A, B y C) califican a tres sujetos en lo mismo (entre parntesis el nmero de orden de
cada sujeto con cada examinador y en la media final):
13
sujetos
sujeto 1
sujeto 2
sujeto 3
Desv. tp.
A
10
5
0
(1)
(2)
(3)
4.08
Examinadores
B
4
5
6
(3)
(2)
(1)
0.82
C
5
6
7
(3)
(2)
(1)
media final
6.3
5.3
4.3
(1)
(2)
(3)
0.82
Tabla 7
Podemos observar que el orden (entre parntesis) de los alumnos en la media final coincide con el
orden del examinador A, que es el que tiene una mayor desviacin tpica.
El sujeto n 1, el de media final ms alta, es el mismo que el del examinador A, a pesar de que este
examinador A est en minora ya que para los examinadores B y C el sujeto n 1 es el que tiene una
calificacin ms baja. Pero como el examinador A ha diferenciado ms sus calificaciones, est influyendo
ms en quin queda en el primer o en el ltimo lugar.
El que la puntuacin parcial con una mayor desviacin tpica tenga tambin un peso mayor en la
media final puede ser de especial importancia en algunas ocasiones, como cuando del nmero de orden
de los examinados se siguen consecuencias importantes (concesin de becas, procesos de admisin o
cualquier otro tipo de ventaja).
Los que califican de manera muy uniforme, sin diferenciar mucho, influyen menos: sumar a todos
una misma cantidad no establece diferencias. Lo mismo sucede si no se trata de examinadores distintos,
sino del mismo examinador pero que ha calificado de manera muy distinta en distintas ocasiones o con
distintos tipos de pruebas.
Este peso distinto de las puntuaciones directas, segn sea mayor o menor la desviacin tpica, se
puede obviar de varias maneras; sobre todo utilizando puntuaciones tpicas como veremos ms adelante.
5. La desviacin tpica entra en otros muchos clculos que iremos viendo (fiabilidad, error tpico,
error tpico de la media, contraste de medias, etc.).
6. La desviacin tpica permite el clculo de las puntuaciones tpicas individuales de las que
tratamos ms adelante. Adems la relacin entre la desviacin tpica, y las puntuaciones tpicas, y la
distribucin normal nos abrir la puerta a la estadstica inferencial.
14
[1]
Mal [0]
Falso
No
[0]
[0]
Varn [1]
Mujer [0]
Con carnet de conducir:
S
[1]
No
[0]
p = proporcin de unos
nmero de unos
N
[9]
La proporcin de ceros (de respuestas incorrectas, de noes, etc.) se simboliza como q, y es igual al
nmero de ceros dividido por el nmero de sujetos, o ms sencillamente, q = 1-p, ya que p + q = 1 ( ses
+ noes o unos + ceros = el 100% de las respuestas).
q = proporcin de ceros
nmero de ceros
N
[10]
p=
El valor de q ser:
q=
30
50
20
50
= .60
= .40
Si multiplicamos por cien la proporcin de respuestas correctas (p), tenemos un tanto por ciento o
un porcentaje: el 60% ha respondido correctamente (o ha respondido s). Si los 50 sujetos responden s (o
correctamente), la proporcin de unos (la media) ser 50/50 = 1 ( el 100% de los sujetos ha respondido
correctamente o ha respondido s).
La desviacin tpica y la varianza de los datos dicotmicos (unos o ceros) se puede calcular a partir
de los valores de p y q:
Desviacin tpica:
= pq
[11]
Varianza:
2 = pq
[12]
15
En el mismo ejemplo anterior, la desviacin tpica ser igual a .60 x .40 = .489, y la varianza ser
igual a .4892 = .239 ( .24 redondeando los decimales).
La varianza mayor posible se dar cuando el 50% responde correctamente (o responde s) y el otro
50% responde incorrectamente (o responde no), es decir, cuando el 50% de las respuestas se codifica con
un uno y el otro 50% con un cero. Es entonces cuando se da el mayor nmero de diferencias interindividuales.
En este caso tenemos que
p = q = .50;
la media es p =.50,
la desviacin tpica ser igual a pq = .50 x .50 = .50
2
la varianza ser igual a .50 = .25,
En los tems dicotmicos el valor mximo que puede alcanzar la desviacin tpica es .50 y el valor
mximo de la varianza es .502 =.25. Como ya se indic antes, el valor mximo que puede alcanzar la
desviacin tpica (con cualquier tipo de puntuacin) es igual a la diferencia entre la puntuacin mxima
posible y la puntuacin ms baja posible dividida por dos; en este caso (1-0)/2 = .50.
El que la mxima varianza con estos datos (1 0) es .25 podemos verlo de manera intuitiva en los
datos simulados de la tabla 8, donde tenemos todos los posibles resultados que podemos obtener si cuatro
sujetos (N = 4) responden a una pregunta (respuestas: s = 1, no = 0).
N=4
Nmero de
diferencias
interindividuales
Varianza
pq
Resultado 1
4/4= 1
0/4 = 0
(4)(0) = 0
(1)(0)
=0
Resultado 2
3/4= .75
1/4 = .25
(3)(1) = 3
(.75)(.25)
= .1875
Resultado 3
2/4 = .50
2/4 = .50
(2)(2) = 4
(.50)(.50)
= .25
Resultado 4
1/4 = .25
3/4= .75
(1)(3) = 3
(.25)(.75)
= .1875
Resultado 5
0/4 = 0
4/4= 1
(0)(4) = 0
(0)(1)
=0
Tabla 8
Si todos responden s (1) o todos responden no (0), nadie se diferencia de nadie y la varianza es
cero. Si la mitad (el 50%) responde s y la otra mitad responde no es cuando tenemos el mximo nmero
de diferencias y la mxima varianza. Si multiplicamos el nmero de los que responden s por el nmero
de los que responden no tenemos el nmero de diferencias entre los sujetos, y si multiplicamos las
proporciones tenemos la varianza. La unanimidad (todos responden s o todos responden no) coincide
con la varianza cero, y la mxima diversidad coincide con la varianza mxima, que es (.50)(.50) = .25.
El entender que la varianza mxima (lo ms lejano a la unanimidad en las respuestas) es .25 tiene
su importancia, no slo como referencia til, sino porque se trata de un valor que entra en la frmula para
calcular el tamao necesario de la muestra para extrapolar los resultados a la poblacin (por ejemplo en
las encuestas pre-electorales); en estos casos suponemos que la varianza de la poblacin es la mxima
posible e igual a .25. La razn est en que a mayor varianza har falta una muestra mayor y para mayor
seguridad nos ponemos en la situacin de que la varianza es la mayor posible (si la varianza fuera = 0,
nos bastara preguntar a un solo sujeto, porque todos van a responder lo mismo)3.
La media y la desviacin tpica de los datos dicotmicos pueden calcularse con las calculadoras que
tienen programacin estadstica, de la misma manera que se calculan cuando las puntuaciones son
3 En la ficha tcnica de las encuestas, que suele aparecer publicada en peridicos y revistas, se suele especificar que el tamao
de la muestra se ha calculado suponiendo que p = q = .50 (tambin se empelan letras maysculas, P y Q).
16
continuas (las frmulas bsicas son las mismas; si las puntuaciones son dicotmicas, nos limitaremos a
introducir en la calculadora unos y ceros). Tambin se utilizan los smbolos convencionales ( X , ); sin
pq (desviacin tpica) son los utilizados
embargo los smbolos p (media), pq (varianza) y
habitualmente con este tipo de datos; realmente tanto pq como pq son las frmulas que tambin se
utilizan como smbolos.
Xtotal =
XN
[13]
Xtotal
XN
N
La frmula [13] es obvia (se trata de una media ponderada por el nmero de sujetos):
Si la media es X =
X
N
Cuando el nmero de sujetos es el mismo en todas las muestras, la media total es simplemente la
media de las medias.
Lo vemos en dos ejemplos (tabla 9), que utilizaremos tambin para ver cmo se combinan
desviaciones tpicas.
N=
X =
=
4
3.75
2.165
4
4.5
1.118
Tabla 9
Cuando las muestras son de tamao desigual:
Xtotal =
Cuando las muestras son de idntico tamao calculamos la media de las medias:
Xtotal =
17
Lo que no se puede hacer es calcular la media de las desviaciones tpicas; para combinar las
desviaciones tpicas de varios grupos como si se tratara de un solo grupo aplicamos las frmulas [14]
(muestras desiguales) y [15] (muestras iguales).
a) Muestras de tamao desigual
total =
N(X 2 + 2 )
2
X total
[14]
N
Si las muestras son de idntico tamao, en la frmula [14] tendramos que el denominador ser Nk,
donde N es el nmero de sujetos que hay en cada grupo y k es el nmero de grupos, por lo que la frmula
[14] queda simplificada como se indica en [16].
total =
( X 2 + 2 )
2
X total
k
[15]
Con los datos mismos datos de la tabla 9 calculamos las desviaciones tpicas uniendo todas las
muestras.
Muestras de tamao desigual [14]:
total =
total =
De dnde vienen estas frmulas para combinar desviaciones tpicas a partir de los valores de las
desviaciones, medias y nmero de sujetos de diversos grupos?
4 El numerador se calcula fcilmente con una calculadora con programacin estadstica, introduciendo todas las medias y todas
las desviaciones tpicas, en la funcin x2
5McNemar, Quinn, (1962), Psychological Statistics, 3rd edit., New York, John Wiley and Sons (pg. 24)
18
(X X) 2
N
[16]
Esta frmula no se demuestra en sentido propio (lo mismo que la de la media aritmtica),
simplemente expresa el concepto.
Hay otras frmulas, que se derivan de [16], para calcular la desviacin tpica sin necesidad de
calcular las puntuaciones diferenciales (X- X ). Lo que sucede es que estas frmulas que simplifican
operaciones son menos tiles, ya que disponemos de calculadoras programadas.
Una de estas frmulas para calcular la desviacin tpica a partir de las puntuaciones directas y de la
media, es la que nos interesa para poder demostrar la frmula que nos permite combinar desviaciones
tpicas de varios grupos; es la frmula [17] que viene en muchos textos; a partir de esta frmula [17]
llegamos con facilidad a la frmula [14] para combinar desviaciones tpicas o varianzas.
=
X 2
X2
N
[17]
Vamos a ver cmo de la frmula [17] llegamos a la frmula [14], que es la propuesta para combinar
desviaciones tpicas; despus veremos de dnde sale esta frmula [17].
Esta frmula [17] es ms cmoda que la frmula [16] para calcular la desviacin tpica cuando no
se dispone al menos de una calculadora con programacin estadstica.
Para simplificar esta demostracin utilizamos la varianza en vez de la desviacin tpica, as si
elevamos al cuadrado la desviacin tpica expresada en [17] tendremos que la varianza ser
2 =
2
X 2
X2
N
2
[18]
2
X =N( + X )
[19]
La expresin que tenemos en [19] podemos verla ya la frmula [14]. Si de dos muestras conocemos
los valores de N, X y , podemos utilizar la frmula [17] para calcular la desviacin tpica de las dos
muestras combinadas en una nica muestra. En esta frmula [17] utilizada para combinar dos (o ms)
desviaciones tpicas tenemos ahora que:
N = N1 + N2;
La media ser la media total de las dos (o ms) muestras
2
X ser la expresin [19] calculada en las dos (o ms) muestras y sumadas.
Es decir, substituyendo [19] en [18] tenemos la frmula [14] para combinar desviaciones tpicas.
Podemos preguntarnos ahora de dnde viene la frmula [17], que es la que estamos utilizando para
llegar a la frmula [14] y calcular la desviacin tpica de dos (o ms) muestras combinadas en una sola.
En la frmula de la desviacin tpica, la habitual, tenemos en el numerador un binomio elevado al
cuadrado. No hay ms que aplicar el procedimiento usual: (a - b)2 = a2 - 2ab + b2, y as llegamos a [18] y
[17]:
Utilizando la varianza para simplificar, tenemos que:
2 =
(X - X) 2 (X 2 2 XX + X 2 ) X 2
X X 2
=
=
2X
+
N
N
N
X
=X
y que
X 2 NX 2
=
= X2
N
N
[20]
19
Tendremos que 2 =
X 2
X 2
2X 2 + X 2 =
X 2 y as llegamos a [18]
N
N
Coeficiente de variacin: V =
(100)
X
[21]
Por ejemplo, en dos grupos, de chicos y chicas, tenemos estos datos (peso en Kg.)
chicos
chicas
media
desviacin
66.87
51.06
6.99
5.10
6.69
66.87
5.51
51.06
(100)
= 10.45
(100)
= 10.79
20
En el campo de los tests en general, puede ser til para comparar la variabilidad de un grupo en el
mismo test aplicado en circunstancias distintas.
2.4. La desviacin semi-intercuartlica
||
||
|
|||
|
|
|
||
||
|||
|
|
f
2
2
1
3
1
1
1
2
2
3
1
1
12.5
6.5
25 %
25 %
50 %
central
25 %
25 %
Tabla 10
Es decir, y dicho de manera ms sencilla, entre 6.5 y 12.5 est el 50% central de los sujetos; la
desviacin semi-intercuartlica (Q) ser:
Q =
Q3 Q 1
2
[22]
12.5 - 6.5
=3
2
Este ejemplo est puesto para explicar el concepto; lo normal es que los lmites del 50% central no
estn tan claros a simple vista; el clculo exacto lo veremos al tratar de los percentiles, pues se trata
simplemente de calcular por interpolacin los percentiles 25 y 75, como se explica en su lugar.
21
La amplitud o recorrido (ambos trminos son usuales)6 es la medida de dispersin que se utiliza
cuando la moda es la medida de tendencia central.
Su clculo es muy simple:
[23]
x
N
5
10
15
20
N
(aprox. = )
x
2.3
3.1
3.5
3.7
N
40
50
100
200
N
(aprox. = )
x
4.3
4.5
5.0
5.5
x
N
400
500
700
1000
(aprox. =
N
)
x
5.9
6.1
6.3
6.5
Tabla 11
Esta tabla nos dice que, por ejemplo, con 10 sujetos podemos esperar que la amplitud equivalga
aproximadamente a 3.1 desviaciones, y con 1000 sujetos a 6.5 desviaciones.
En los datos de la tabla 1.1 tenemos 40 sujetos, y la desviacin tpica exacta es 9.71; calculada a
partir del valor x de la tabla (para N = 40, x = 4.3), tendramos que = 40/4.3 = 9.3, que no se aparta
mucho del valor real.
6 A veces, y de manera errnea, se denomina rango a la amplitud, por confusin con el ingls (amplitud o recorrido en ingls es
range). El trmino rango significa propiamente nmero de orden (rank en ingls).
7 La tabla est tomada de Guilford.J.P. and Fruchter, B. (1973). Fundamental Statistics in Psychology and Education. 5th
edition. New York: McGraw-Hill.
22
Esta tabla no es til para calcular la desviacin tpica; en primer lugar porque es muy sencillo
calcular el valor exacto de la desviacin (utilizando un programa de ordenador o una calculadora con
programacin estadstica) y porque, como ya hemos indicado, la amplitud es una medida muy pobre que
depende solamente de dos puntuaciones que adems pueden ser atpicamente altas o bajas. Sin embargo
el calcular la desviacin a partir de esta tabla puede ser ocasionalmente til:
a) Para hacernos una idea de por dnde puede ir el valor de la desviacin tpica si en un momento
dado no disponemos de medios para calcularla directamente,
b) Para ponernos sobre la pista de algn error de bulto en el clculo,
c) Para apreciar si la desviacin tpica exacta y bien calculada es mucho mayor o menor de lo que
cabra esperar en un grupo de un determinado tamao. Si la desviacin tpica calculada es
apreciablemente mayor de la esperada, podemos comprobar si se debe a unos pocos sujetos
con puntuaciones extremas muy atpicas.
23
de dispersin
Desviacin tpica : =
(X - X )
N
Mediana = P50
P75 P 25
2
La desviacin semi-intercuartlica (Q) se calcula
solamente con el 50% central de la distribucin: es la
media de dos puntuaciones: la que corresponde al
percentil 75 (deja por arriba el 25% de los sujetos) y la
que corresponde al percentil 25 (deja por debajo el 25%
de los sujetos).
Ejemplos de uso de la mediana y Q: en el proceso de construccin de escalas de Thurstone; los tems son evaluados
por jueces y para evitar que pesen demasiado juicios extremos, se calculan la mediana y Q (en vez de la X y ) en
cada tem. Tambin se utilizan a veces en los cuestionarios de evaluacin del profesorado, cuando interesa la opinin
del centro de la clase y prescindir de los extremos.
La mediana y los percentiles 25 y 75 (Q1 y Q3, o primer y tercer cuartil) permiten adems hacer determinadas
representaciones grficas. Los percentiles se calculan en estos casos por interpolacin.
Moda : puntuacin con una frecuencia mayor
En la distribucin normal (simtrica, acampanada) media, mediana y moda coinciden en un idntico valor.