Está en la página 1de 32

Estadística aplicada a la investigación social 1

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL


Y DE DISPERSIÓN
Autores: Mtro. José Luis Sandoval Dávila y Lic. Rafael Zepeda Barrios

Introducción

La descripción numérica de un conjunto de datos para el análisis, diagnóstico y toma de


decisiones en trabajo social, implica necesariamente la determinación de sus niveles de
representación general, con base en sus valores o características de mayor concentración,
sin soslayar la importancia de la dispersión, la tendencia y la esperanza de ocurrencia de
aquellos en diversos escenarios de la investigación social.

Lo anterior es observado a partir de la necesidad numérica para dimensionar el impacto de


las variables, utilizando para ello medidas como la media, mediana, moda y su relación con
las escalas de medición. Asimismo, será menester considerar la variación de los datos
respecto a los valores centrales del conjunto a partir de medidas como la desviación
estándar, coeficiente de variación, sesgo, curtosis.

Para conocer la esperanza estadística de ocurrencia de ciertos valores o características de un


conjunto de datos, es imprescindible el empleo de las distribuciones de probabilidad discreta
y continua, entre ellas las distribuciones binomial y normal.

Temario

1. Media, media ponderada, mediana y moda


2. Desviación estándar, varianza, coeficiente de variación, sesgo y curtosis
3. Distribuciones empíricas y teóricas: normal y binomial

Unidad 4 / Pág. 1
Estadística aplicada a la investigación social 1

1. MEDIA, MEDIA PONDERADA,


MEDIANA Y MODA

Objetivo del tema

Calcular las medidas de tendencia central aplicables a los fenómenos sociales,


considerando las más adecuadas al tipo de variables de estudio, para contribuir al
análisis de valores de manera objetiva y adecuada para el Trabajo Social.

Conceptos

Las medidas de tendencia central, son valores o características sobre las cuales tienden a
concentrarse la mayor parte de los elementos de un conjunto; son representadas
principalmente por la media, mediana y moda.

Es menester aclarar que por el trabajo empírico a lo largo de varias décadas, en esta unidad
se considera el término “promedio” como el valor o la característica que representa a un
conjunto de datos, mismo que puede ser referido a partir de la media, mediana o moda; el
alumno tendrá la mejor opinión.

Aquí algunos conceptos de las medidas de tendencia central:

Según Ya-Lun Chou (2000): “Las medidas de tendencia central se llaman promedios. Un
promedio es un valor típico en el sentido de que se emplea a veces para representar todos
los valores individuales de una serie o de una variable”.

De acuerdo con Herbert Arkin (2003): “Un promedio es un valor típico con el que se
intenta resumir o describir una masa de datos. También sirve como una base para medir o
evaluar valores extremos o poco usuales. El promedio es una medida de localización del
punto de tendencia central”.

Frederick E. Croxton (2004) afirma que: “Se usa la expresión medidas de dispersión o
promedios para identificar aquellos valores que pueden calcularse con el fin de caracterizar
la distribución de las frecuencias”.

Media

La media es la medida de tendencia central de mayor uso; sin embargo, es aplicable


únicamente a variables numéricas, por lo tanto es el valor sobre el cual tienden a
concentrarse la mayor parte de los datos de un conjunto. Se calcula sumando todos los
datos y dividiendo el resultado entre el total de ellos. Tiene la ventaja de que para su cálculo
incluye a todos los elementos del conjunto, pero con la gran desventaja de que si la
distancia entre los valores extremos, llamado rango, se va haciendo mayor, la media va
perdiendo fuerza o representatividad del conjunto.

Unidad 4 / Pág. 2
Estadística aplicada a la investigación social 1

Ventajas:
• La media es el promedio utilizado más frecuentemente y es sencillo de entender. Su
cálculo es simple. Todos los elementos del conjunto participan en la obtención de
esta medida.

Desventajas:
• Resulta afectada por el alejamiento de los valores extremos del conjunto de datos
(rango). Es alterada también según el desplazamiento de los datos del conjunto, esto
es: si los datos tienden hacia el extremo inferior o superior del conjunto, entonces la
media se dirigirá en ese sentido, lo cual representa una desventaja significativa en
relación con las otras medidas de tendencia central.
• Por lo tanto, la media puede sesgarse significativamente por valores extremos y, por
ello, no ser un valor representativo del conjunto de datos.
• La media no puede calcularse en las distribuciones que contienen intervalos abiertos,
es decir, cuando se desconoce alguno de sus límites.

Particularmente, la media aritmética o promedio de una cantidad determinada de datos


numéricos, es igual a la suma de las magnitudes de cada uno dividida entre el total de ellos.

Así, dados los números x1 , x2, x3, ... , xn, la media aritmética para una lista de datos o un
conjunto de datos no agrupados será igual a:

x1 + x2 + x3 + ... + xn
=
n

∑x
= (Fórmula 1)
n

Por ejemplo, la media aritmética para la siguiente lista de datos 18, 25, 32, 35 y 15 es igual
a la suma de todos esos valores, divididos entre cinco ya que éste es el número de
elementos de ese conjunto.

18 + 25 + 32 + 35 + 15
= = 25
5

Para un conjunto de datos agrupados por intervalos deberá calcularse la marca de clase (X)
y cada una de ellas multiplicarse por su respectiva frecuencia absoluta o de clase, y la suma
de esos productos dividirla entre el total de datos:

Unidad 4 / Pág. 3
Estadística aplicada a la investigación social 1

f1 x1 + f2 x2 + f3 x3 + ... + fn xn
=
Σf

∑ fx
= (Fórmula 2)
Σf

Donde: Σ = Sumatoria
f = Frecuencia absoluta o frecuencia de clase de cada intervalo
x = Marca de clase de cada intervalo

Para ejemplificar el cálculo de la media aritmética para un conjunto de datos agrupados,


tomaremos con ejemplo los datos del salario devengado por un grupo de 60 trabajadores
durante los tres primeros meses en su empleo (Tabla 1).

Partiendo de la distribución de frecuencias de la tabla 1 se calcula la marca de clase en cada


intervalo y se multiplica cada una de ellas por la frecuencia absoluta respectiva. La suma de
esos productos se divide entre el total de frecuencias, obteniendo así la media aritmética,
promedio, del conjunto:

Tabla 1. Distribución del salario devengado por un grupo de


trabajadores durante los tres primeros meses en el empleo (Miles de
pesos).

MARCA DE FRECUENCIA
INTERVALOS DE
CLASE ABSOLUTA fx
CLASE
x f
9 - 12 10.5 18 189
12 - 15 13.5 28 378
15 - 18 16.5 7 115.5
18 - 21 19.5 4 78
21 - 24 22.5 1 22.5
24 - 27 25.5 2 51
Totales 60 834

834
= = 13.9
60

Este resultado significa, a cifras cerradas, que el ingreso promedio de los empleados,
durante los 3 primeros meses de ejercicio laboral, es de 14 mil pesos, por lo que debe
considerarse qué tan significativo resulta ese ingreso medio en el inicio de su proceso
laboral.

Unidad 4 / Pág. 4
Estadística aplicada a la investigación social 1

Media ponderada

Cuando los elementos de un conjunto de datos ( x1, x2,...,xn ) son relativamente semejantes,
para promediar, ciertos factores (w1, w2,...,wn ) dependen de la importancia o peso
específico de cada uno de los valores. En estos casos se recomienda calcular la llamada
media aritmética ponderada, la cual considera el peso relativo que tiene cada uno de esos
factores. Para ello se multiplica cada uno de los valores de la variable por su peso específico
y la suma de esos productos se divide entre la suma de los pesos específicos, valga la
redundancia de términos:

w1 x1 + w2x2 + w3x3 + ... + wn xn


X=
Σw

∑ wx
(Fórmula 3)
X =
Σw
Supóngase que, con la finalidad de tener elementos para determinar la cantidad de dinero
que habrá de recibir cada uno de esos trabajadores durante el próximo trimestre por
concepto de bono de productividad, se desea encontrar el promedio ponderado de las cinco
calificaciones que se consideraron para evaluar su desempeño en esos primeros 3 meses de
trabajo. Para ello, según los criterios de la organización en la que prestan sus servicios, la
segunda calificación vale el doble de la primera, la tercera el triple de la primera, la cuarta
vale cuatro veces la primera y la quinta cinco veces.

Si uno de esos trabajadores fue evaluado con los siguientes puntajes: 8.5, 7.3, 8.3, 6.4 y
9.2 ¿Cuál es el promedio de su evaluación?

Solución : X= calificación W = importancia o peso relativo de la calificación

X1 = 8.5 ; W1 = 1
X2 = 7.3 ; W2 = 2
X3 = 8.3 ; W3 = 3
X4 = 6.4 ; W4 = 4
X5 = 9.2 ; W5 = 5

Unidad 4 / Pág. 5
Estadística aplicada a la investigación social 1

(1)(8.5) + (2)(7.3) + (3)(8.3)+ (4)(6.4)+(5)(9.2) 119.6


X = = = 7.97
15 15

El promedio ponderado de las calificaciones de este empleado es 7.97

Mediana

Esta medida es aplicable a variables numéricas y a variables ordinales. Es el valor o


característica que divide al conjunto de datos en dos partes iguales. Tiene la ventaja de que
no es afectada por el rango y la desventaja de que, para su cálculo u observación, sólo toma
en cuenta al valor o valores que están en el centro del conjunto o distribución.

Ventajas:
• La mediana para un conjunto de datos no agrupados, se obtiene fácilmente. Bastará con
ordenar los datos y dividir entre dos el total de ellos localizando con esto el centro del
conjunto, lugar donde se encuentra la mediana.
• Su valor no es afectado por los extremos del conjunto. Ocasionalmente es un valor más
representativo de un grupo de datos que otros promedios, debido a que el rango no le
afecta.
• Para conjuntos de datos agrupados por intervalos, la mediana puede calcularse aún
cuando estos sean abiertos.
• No se afecta por los valores de los extremos del conjunto.

Desventajas:
• No es tan aplicable como la media.
• Toma sólo el valor o valores que se encuentran en el centro del conjunto.

Una expresión simple para el cálculo de la mediana para un conjunto de datos numéricos
agrupados en intervalos es la siguiente:

n+1
- S
2
M = L1 + (C) (Fórmula 4)
FM

Donde:

M = Mediana a obtener.
L1 = Límite real inferior o valor frontera inferior del intervalo donde se
encuentra la mediana (clase mediana).
n = Total de datos del conjunto o distribución.
S = Frecuencia acumulada hasta el intervalo anterior al de la clase mediana.
FM = Frecuencia de la clase mediana.
C = Amplitud del intervalo.

Unidad 4 / Pág. 6
Estadística aplicada a la investigación social 1

Ilustremos esta medida en la tabla 2 con los datos de la distribución de la tabla 1:

Tabla 2. Distribución de frecuencias para el cálculo de


la mediana
Intervalos de
Frecuencia
clase Frecuencia Frecuencia Frecuencia
porcentual
Con clasificación absoluta porcentual absoluta
acumulada
continua acumulada
9 - 12 18 30 18 30
Clase 12 - 15 28 46 46 76
Mediana
15 - 18 7 12 53 88
18 - 21 4 7 57 95
21 - 24 1 2 58 97
24 - 27 2 3 60 100
Totales 60 100

Recordemos que la mediana es el valor que divide al conjunto en dos partes iguales, por lo
tanto se encuentra en el intervalo que contiene el 50% acumulado de los datos. Obsérvese
que en la tabla 2, ese porcentaje se localiza en el segundo intervalo, por lo tanto éste será
identificado como “Clase mediana”. A partir de esta clase mediana, identificaremos los
valores que serán sustituidos en la fórmula 4 para el cálculo de la mediana:

L1 = Límite inferior de la clase mediana = 12


n = Total de datos del conjunto o distribución = 60
S = Frecuencia acumulada hasta el intervalo
anterior al de la clase mediana = 18
FM = Frecuencia de la clase mediana = 28
C = Amplitud del intervalo = 3

60 + 1
- 18
2
M = 12 + (3)
28

Al efectuar las operaciones el valor de la mediana es, a cifras redondeadas:

M = 13

Unidad 4 / Pág. 7
Estadística aplicada a la investigación social 1

Moda

La más simple y débil de las medidas de tendencia central. Es aplicable a todo tipo de
variables y es aquel valor o característica que se presenta con mayor frecuencia en un
conjunto. Lo mismo que la mediana, su ventaja es no verse afectada por el rango, en caso
de datos numéricos, y con la desventaja de que sólo observa o considera a aquellos valores
o características que se presentan el mayor número de veces.

Un conjunto de datos o una distribución de frecuencias puede tener más de un valor,


intervalo o categoría que se presente con la mayor frecuencia, por lo que las distribuciones
con sólo un valor o categoría con esa característica son llamadas unimodales; no obstante
puede haber algún conjunto en donde sean dos las categorías con la mayor frecuencia,
siendo llamadas bimodales. En caso de que sean más de dos las categorías en esas
condiciones, la distribución es llamada multimodal.

Ventajas:

• No es afectada por el rango. Es el valor de mayor frecuencia y por ello el promedio


más descriptivo, según diversos investigadores de la materia, aunque como se
señaló, es un promedio débil.
• Es sencillo aproximarla mediante un examen de los datos, cuando son reducidos.
• Si sólo hay unos pocos elementos no es necesario ordenarlos para determinar la
moda.

Desventajas:

• Sólo considera a los datos que se presentan con mayor frecuencia.


• Se puede aproximar la moda, sólo cuando se dispone una cantidad limitada de datos.
• Su significación es limitada cuando no se dispone de un gran número de valores.
• Si no se repite ningún valor, la moda no existe. En este caso el conjunto o la
distribución recibe el nombre de Uniforme.

Una expresión simple para el cálculo de la moda para un conjunto de datos numéricos
agrupados en intervalos es la siguiente:

D1
MO = L1 + (C) (Fórmula 5)
D1 + D2

Donde:

L1 = Límite inferior de la clase modal, intervalo en el que se encuentra la moda,


mayor frecuencia.
D1=Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
anterior a ella.
Unidad 4 / Pág. 8
Estadística aplicada a la investigación social 1

D2=Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase


siguiente.
C = Diferencia entre el límite superior y el límite inferior de la clase modal.

Para ilustrar el cálculo de la moda, los datos fueron tomados de la tabla 2 y se


complementaron para construir lo siguiente:

Tabla 3. Distribución de frecuencias para ilustrar el


cálculo de la moda

Intervalos de clase Frecuencia absoluta

9 - 12 18
Clase
Modal
12 - 15 28
15 - 18 7
18 - 21 4
21 - 24 1
24 - 27 2
Totales 60

Obsérvese en ella que el intervalo de mayor frecuencia es el segundo, por lo tanto lo


identificaremos como “Clase modal” y a partir de él sustituiremos los valores en la fórmula
5.

L1 = Límite inferior de la clase modal = 12


D1 = Diferencia entre la frecuencia de la clase
modal y la frecuencia de la clase anterior = 28 – 18 = 10
D2 = Diferencia entre la frecuencia de la clase
modal y la frecuencia de la clase siguiente = 28 – 7 = 21
C= Amplitud del intervalo = 15 – 12 = 3

10
MO = 12 + (3)
10 + 21

Al efectuar las operaciones el valor de la moda es, a cifras redondeadas:

MO = 13

Con los resultados obtenidos de la media, mediana y moda, se recomienda analizar las
ventajas y desventajas de cada una de esas medidas de tendencia central y así poder
determinar cuál de las tres es la que representa de mejor manera el conjunto de datos. En
Unidad 4 / Pág. 9
Estadística aplicada a la investigación social 1

este ejercicio los resultados presentan muy poca variación, por lo que podría referirse como
promedio del conjunto a cualquiera de ellos. Sin embargo, si los resultados presentaran
diferencias notables tendría que tomarse la decisión de cuál de ellos, con base en el análisis
sugerido, es el promedio del conjunto.

Considérese también la siguiente estrategia para la decisión que deberá tomarse respecto a
la medida de tendencia central que representará al conjunto de datos: si se pretende
observar el valor respecto al cual se concentran la mayor parte de los datos, decídase por la
media. Si lo que se desea es el valor central, piénsese en la mediana y si es el valor más
frecuente lo que se requiere, en la moda está la respuesta.

Relación que guardan la media, mediana y moda con las variables por nivel de
medición

Escala nominal y moda

La operación básica y más sencilla en toda disciplina o ciencia es la clasificación. Separa


elementos desde el punto de vista de determinadas características, decidiendo cuáles son
semejantes y cuáles distintas. Agrupa datos por categorías que sean homogéneas y como
medida de tendencia central únicamente utiliza a la moda, ya que sólo presenta la incidencia
porcentual, relativa o absoluta por categoría observada.

Escala ordinal con moda y mediana

Se presenta como un nivel superior al utilizado para obtener la escala nominal; con esta
escala podemos agrupar a individuos en categorías separadas y ordenarlos con respecto a
otras, por lo tanto las variables con este nivel de medición podrán clasificarse utilizando
como medida de tendencia central a la moda y ordenarse, siendo factible la utilización de la
mediana.

Escalas de intervalo y razón, variables escalares, con moda, mediana y media

Naturalmente las variables numéricas son factibles de cualquier tipo de tratamiento ya que
pueden clasificarse, ordenarse y medirse; por lo tanto resulta ser el tipo de variables a las
que se les puede obtener como medida de tendencia central tanto la media, como la
mediana y la moda, sin perder de vista que sólo una de ellas deberá ser utilizada,
considerando las ventajas y desventajas anteriormente expuestas, como promedio del
conjunto de datos en estudio.

Algunos ejemplos de la relación entre niveles de medición y medidas de tendencia


central

La mediana se utiliza principalmente con variables ordinales y junto con la moda son las
únicas dos medidas de tendencia central que se pueden usar con variables de este nivel de
medición.

Sin embargo, cuando la variable es ordinal, no es apropiado promediar los dos valores
medios. Simplemente se dice que la mediana se encuentra entre esos dos valores.

Unidad 4 / Pág. 10
Estadística aplicada a la investigación social 1

Ejemplo:

1. En un cuestionario que utiliza la escala Likert, las respuestas a una pregunta fueron
“nunca, casi nunca, de vez en cuando, frecuentemente, muy frecuentemente”.

Mediana = de vez en cuando

Cuando las observaciones han sido tabuladas en una tabla de distribución de frecuencias, la
mediana corresponde a la categoría en la que se encuentra la frecuencia acumulativa del
50% de las observaciones.

2. DESVIACIÓN ESTÁNDAR, VARIANZA, COEFICIENTE DE VARIACIÓN,


SESGO Y CURTOSIS

Objetivo del tema


Calcular las medidas de dispersión de aplicación en los fenómenos sociales,
considerando el grado de alejamiento y variabilidad de los datos respecto al promedio
del conjunto, para permitir, con ello, tener mayor confiabilidad en la interpretación de
los resultados y por consecuencia en la toma de decisiones.

Introducción

Al analizar un conjunto de datos, resulta a menudo conveniente expresar numéricamente la


variabilidad que existe entre ellos. Para llevar a cabo esta descripción se utilizan diversas
medidas estadísticas que evidencian la relación interna entre los datos. Comúnmente estas
relaciones tienen que ver con diferencias de los datos o funciones de ellos, respecto de
algunas estadísticas de posición. Dependiendo del tipo de diferencia usada, se obtienen
distintas expresiones que entregan visiones parciales de la forma en que los datos varían.
Estas visiones parciales se complementan para entregar un cuadro más completo de la
dispersión observada entre los datos.

Las medidas de tendencia central son de un valor representativo para una conjunto de
observaciones; pero el valor de esas medidas dependerá de qué tan dispersos se encuentren
los datos entre sí. Por eso se establecen medidas que tratan de explicar la dispersión de los
datos y son: la desviación estándar, varianza, coeficiente de variación, sesgo y curtosis. Una
medida de dispersión conveniente deberá tomar en consideración todos los datos de la serie
considerando cada dato por su distancia al centro de la distribución.

Es posible tener dos conjuntos de datos que tengan el mismo promedio, pero que sean muy
diferentes. Por ejemplo, es posible que dos trabajadores puedan obtener el mismo promedio

Unidad 4 / Pág. 11
Estadística aplicada a la investigación social 1

en su desempeño laboral y sus actuaciones hayan sido totalmente diferentes. Uno de ellos
pudo haber mantenido un desempeño constante durante el periodo observado; el otro por
su parte pudo haber tenido desempeño muy variado.

Rango

El rango es la diferencia entre el dato mayor y el dato menor dentro de un grupo de datos,
puede representarse así:

Rango = Valor de dato mayor – Valor del dato menor (Fórmula 6)

Esta medida tiene diversas aplicaciones: facilita la organización de los datos, orienta la
consistencia del promedio del conjunto; recuérdese que la desventaja de la media es cuando
el rango aumenta su tamaño y esto la hace perder representatividad y confiabilidad.

Desviación estándar

Esta medida de dispersión es aplicable a variables numéricas y tiene por finalidad observar
el grado de alejamiento de los datos respecto a la media del conjunto.

Tiene dos propiedades que la robustecen y son:

1) Se encuentra en los puntos de inflexión de la distribución.


2) En el intervalo que forma con la media, se concentran alrededor del 68.26% de los
elementos observados.

Gráfica 1. Propiedades de la desviación estándar

En un conjunto de datos no agrupados, para obtener la desviación estándar (Fórmula 7)


se resta cada uno de los datos de la media, se eleva al cuadrado cada una de las diferencias

Unidad 4 / Pág. 12
Estadística aplicada a la investigación social 1

y se suman todas ellas. Esta suma se divide entre el total de datos y se le extrae raíz
cuadrada.

Para un conjunto de datos agrupados por intervalos, posteriormente al cálculo de la media


se calcula la marca de clase (X) de cada intervalo, cada marca de clase se resta de la media,
esta diferencia se eleva al cuadrado y se multiplica por su frecuencia de clase; estos
productos se suman y el total se divide entre la suma de frecuencias (total de datos del
conjunto), finalmente se extrae la raíz cuadrada (Fórmula 8). Estos dos procedimientos los
expresan las siguientes ecuaciones:

(Fórmula 7)

(Fórmula 8)

Es estas fórmulas se identifican los siguientes elementos:

S : Desviación Estándar
∑ : Sumatoria
Xi : Valores de la variable en datos no agrupados
f : Frecuencia absoluta (de clase)
X : Marca de clase en datos agrupados por intervalo
Non : Total de datos o suma de frecuencias absolutas

Como podrá deducirse, la desviación estándar es un valor esencialmente similar a la media,


y representa el promedio del alejamiento de los datos respecto a esa medida de tendencia
central y nos indica qué tan representativa es la media del conjunto.

Como ejemplo tomemos como referencia la tabla 4. Sígase el procedimiento indicado y se


obtendrá el valor de la desviación estándar para un conjunto de datos agrupados.

Unidad 4 / Pág. 13
Estadística aplicada a la investigación social 1

Tabla 4. Distribución de frecuencias para el cálculo de la desviación


estándar.

Intervalos X F FX (X - media) (X - media)2 F (X - media)2


9 - 12 10.5 18 189 -3.4 11.56 208.08
12 - 15 13.5 28 378 -0.4 0.16 4.48
15 - 18 16.5 7 115.5 2.6 6.76 47.32
18 - 21 19.5 4 78 5.6 31.36 125.44
21 - 24 22.5 1 22.5 8.6 73.96 73.96
24 - 27 25.5 2 51 11.6 134.56 269.12
Totales 60 834 728.4

Con el valor de la media obtenido a partir de la tabla 1 (X = 13.9) se pueden sustituir los
resultados de la tabla 4 en la fórmula 8 y ejecutar las operaciones aritméticas
correspondientes; con ello se obtiene el valor de la desviación estándar:

18(10.5–13.9)2+28(13.5–13.9)2+7(16.5–13.92)+4(19.5–13.9)2+1(22.5–13.9)2+2(25.5-13.9)2
S=
728.4

S = 3.4

Este resultado indica, tomando como referencia las propiedades de la desviación estándar,
que el 68.26% de los datos se encuentran en el intervalo:
13.9 – 3.4 ≤ X ≤ 13.9 + 3.4

10.5 ≤ X ≤ 17.3

Varianza

Esta medida representa las variaciones cuadráticas respecto a la media del conjunto, lo que
comúnmente se expresa como el cuadrado de la desviación estándar y cuyas expresiones
para su cálculo son las siguientes:

Σ ( X - X )2
2 (Fórmula 9)
S = ------------------------
n

Σ f ( X - X )2
S2 = ------------------------ (Fórmula 10)

Σf

Unidad 4 / Pág. 14
Estadística aplicada a la investigación social 1

Correspondiendo la fórmula 9 a datos no agrupados y la 10 para conjuntos de datos


agrupados por intervalos.

Es oportuno destacar que esta medida de dispersión, llamada varianza, es utilizada en casos
de desear observar los datos cuadráticos y para algunos casos de distribuciones de
probabilidad, que serán abordados en el siguiente apartado de esta unidad.

Coeficiente de variación

Es una medida de variación relativa que permite hacer comparaciones de diferentes grupos
con unidades de medida iguales o diferentes y obtener mejores conclusiones.

Permite asimismo determinar la homogeneidad o consistencia entre los grupos observados,


contestando la siguiente pregunta: ¿cuál de los grupos es más homogéneo o presenta
menor dispersión o variación relativa respecto a los demás? Indica también qué porcentaje
de la media representa la desviación estándar.

Para su cálculo se utiliza la siguiente expresión:

S
CV = ( 100 ) (Fórmula 11)
X

Recuerde que S es el valor de la desviación estándar y X corresponde al de la media. El


factor (100) se incluye para representar el resultado en términos porcentuales y así tener
elementos más simples para el análisis de los conjuntos de datos.

Para ejemplificar el uso de esta medida, utilizaremos los resultados de la media (3.4) y el de
la desviación estándar (13.9) calculados en el apartado anterior. Para ello se sustituyen en
la fórmula 11 y realizando las operaciones, el coeficiente de variación de los datos de la
tabla del ejemplo, toma el siguiente valor:

3.4
CV = ( 100 )
13.9
CV = 24. 4

Indica que la dispersión promedio (desviación estándar) de los salarios de esos 60


trabajadores representa el 24.4% de la media.

Sin embargo y considerando que esta medida de variación relativa tiene el propósito de
comparar grupos de datos para determinar cuál de ellos es más homogéneo o simplemente
qué conjunto de datos se encuentra más cercano a la media, utilizaremos otro ejemplo para
interpretar esta medida de dispersión.

En los programas de capacitación en los que han participado los 60 trabajadores del ejercicio
anterior, se obtuvo una media de su evaluación de 65 puntos con una desviación estándar

Unidad 4 / Pág. 15
Estadística aplicada a la investigación social 1

de 10 puntos, ¿cuál de las dos variables, salario o capacitación, es más homogénea en esos
trabajadores?
S = 10
X = 65
10
CV = ( 100 )
65
CV = 15.38

Por presentar menor variación relativa, significa que la capacitación de los trabajadores es
más consistente u homogénea que sus salarios, ya que estos indican una mayor dispersión
respecto a su media.

Sesgo

Mide el grado de asimetría de un conjunto de datos. Indica hacia dónde tienden las unidades
de observación y cuál es el carácter de esa tendencia, positiva o negativa, cuyo significado
refiere las áreas de oportunidad que deben ser atendidas respecto al problema o fenómeno
estudiado.

Para la determinación práctica del carácter del sesgo se compara la relación entre la media y
la moda (fórmula 12), lo que determina su carácter positivo o negativo.

Carácter del Sesgo (SK) = media – moda (Fórmula 12)

El uso de la fórmula 12 tiene únicamente la finalidad de observar el sentido en el que los


datos se están concentrando, si es positivo o negativo. Para la obtención del valor o
magnitud del sesgo se deberá utilizar la fórmula 13 para datos no agrupados o la fórmula 14
para un conjunto de datos agrupados por intervalos. A continuación se ilustrará el carácter o
tendencia del sesgo.

Sesgo negativo

El sesgo negativo se presenta cuando la mayoría de los datos se agrupan o concentran hacia
la derecha del conjunto o valores superiores de la variable; la media se encuentra a la
izquierda de la moda, alargándose la distribución, como se muestra en la gráfica 2, hacia su
lado izquierdo.

Gráfica 2. Distribución con sesgo negativo

X MO
Unidad 4 / Pág. 16
Estadística aplicada a la investigación social 1

Sesgo positivo

En una distribución con sesgo positivo la media se encuentra a la derecha de la moda, la


mayoría de los datos se concentran hacia los valores inferiores de la variable, alargándose la
distribución, como se observa en la gráfica 3, hacia su derecha.

Gráfica 3. Distribución con sesgo positivo

MO X

Distribución insesgada

Las distribuciones insesgadas, llamadas también de sesgo nulo, son aquellas que son
simétricas, es decir, que el valor de la media y la moda son iguales. La curva en estas
distribuciones no aparece alargada hacia ninguno de sus extremos, como se observa en la
gráfica 4.
Gráfica 4. Distribución insesgada

X
MO

Unidad 4 / Pág. 17
Estadística aplicada a la investigación social 1

En primera instancia, en la investigación social, particularmente en Trabajo Social, se


requiere conocer sólo la tendencia, sesgo, de una variable o fenómeno en estudio
soslayando su valor; sin embargo, para la toma de decisiones será menester conocer la
magnitud de la tendencia y así dimensionar el área de oportunidad como instancia de
intervención. Las fórmulas para el cálculo del sesgo son:

Para un conjunto de datos no agrupados:

3
∑ (X - X)
SK= (Fórmula 13)
3
(S ) (N – 1)

Para un conjunto de datos agrupados por intervalos:

3
∑ F (X - X)
SK= (Fórmula 14)
3
(S ) (N – 1)

En esas fórmulas se identifican los siguientes elementos:


SK = Sesgo
Σ = Sumatoria
F = Frecuencia absoluta o de clase
(sólo en caso de datos agrupados)
S = Desviación estándar
X = Marca de clase
(en caso de datos no agrupados este símbolo
representa a cada valor o dato del conjunto)
X = Media
N = Número total de datos o suma de frecuencias
absolutas
Para ejemplificar el cálculo del sesgo para un conjunto de datos agrupados por intervalos
continuaremos con los datos de la tabla 4, la tabla 5, realizando las operaciones indicadas y
sustituyendo los resultados en la fórmula 14:

Tabla 5. Distribución de frecuencias para el cálculo del sesgo

Intervalos X F FX (X - (X - F (X -
media) media)3 media)3
9 - 12 10.5 18 189 -3.4 -39.304 -707.472
12 - 15 13.5 28 378 -0.4 -0.064 -1.792
15 - 18 16.5 7 115.5 2.6 17.576 123.032
18 - 21 19.5 4 78 5.6 175.616 702.464
21 - 24 22.5 1 22.5 8.6 636.056 636.056
24 - 27 25.5 2 51 11.6 1560.896 3121.792
Totales 60 834 3874.08
Media= 13.9
Desviación estándar= 3.4
Unidad 4 / Pág. 18
Estadística aplicada a la investigación social 1

Al sustituir los resultados de la tabla en la fórmula 14 obtenemos:

SK = 1.67

Este carácter positivo del sesgo nos indica que los datos se concentran hacia los valores
inferiores de la variable o distribución, confirmando los comentarios anteriores.

Curtosis

Curtosis es una palabra griega que indica pico y se refiere a la concentración de los datos
representados en una curva; qué tan puntiaguda o achatada es una distribución, tomando
como referencia su forma gráfica. Existen tres tipos diferentes de formas de distribución:
una es muy alargada hacia arriba o puntiaguda y se llama leptocúrtica, que significa pico
alto. La segunda es relativamente plana y se denomina platicúrtica. La tercera forma de
curva es el patrón con el cual se compara la curtosis de otras curvas y poblaciones. Es una
curva llamada normal la cual se le denomina mesocúrtica.

Resulta sustancial recordar que las medidas de dispersión están referidas en relación con el
promedio del conjunto, en estos casos se comparan con la media.

Según se mencionó, la curtosis mide qué tan alta (puntiaguda) o plana (achatada) es una
distribución respecto de una normal y se calcula como sigue:

Para un conjunto de datos no agrupados:

4
∑ (X - X)
K= (Fórmula 15)
4
(S ) (N – 1)

Para un conjunto de datos agrupados por intervalos:

4
∑ F (X - X)
K= (Fórmula 16)
4
(S ) (N – 1)

En esas fórmulas se identifican los siguientes elementos:

K = Curtosis
Σ = Sumatoria
F = Frecuencia absoluta o de clase
(sólo si los datos están agrupados por intervalos)
S = Desviación estándar
X = Marca de clase
(en caso de datos no agrupados este símbolo
representa a cada valor o dato del conjunto)
Unidad 4 / Pág. 19
X = Media para datos agrupados
N = Número total de datos
Estadística aplicada a la investigación social 1

Al utilizar las fórmulas 15 y 16 para el cálculo de la curtosis, el valor de comparación para


determinar el tipo y carácter de la distribución o conjunto de datos es 3.0 (tres punto cero).
Cuando el coeficiente toma el valor igual a tres, se dice que la curva es normal o
mesocúrtica. Si el valor del coeficiente es mayor que 3.0 refiere una curva puntiaguda,
leptocúrtica o con curtosis positiva; y si es menor que 3.0 entonces se concluye que los
datos presentan una distribución aplanada, platicúrtica o con curtosis negativa.

K = 3.0 (distribución mesocúrtica).


K > 3.0 (distribución leptocúrtica, curtosis positiva).
K < 3.0 (distribución platicúrtica, curtosis negativa).

Las figuras de la gráfica 5 muestran los tres tipos de curvas de acuerdo a las forma de su
distribución:
Gráfica 5. Formas de
distribución

Leptocúrtica o curtosis positiva

Platicúrtica o curtosis negativa

Mesocúrtica o curtosis nula

Como ejemplo para el cálculo del sesgo y de la curtosis tomaremos una vez más los datos
de la tabla 4 y esta vez se elaborará la tabla 6:

Unidad 4 / Pág. 20
Estadística aplicada a la investigación social 1

Tabla 6. Distribución de frecuencias para el cálculo de la curtosis

(X - (X - F (X -
Intervalos X F fx media) media)4 media)4
9 - 12 10.5 18 189 -3.4 133.6336 2405.4048
12 - 15 13.5 28 378 -0.4 0.0256 0.7168
15 - 18 16.5 7 115.5 2.6 45.6976 319.8832
18 - 21 19.5 4 78 5.6 983.4496 3933.7984
21 - 24 22.5 1 22.5 8.6 5470.0816 5470.0816
24 - 27 25.5 2 51 11.6 18106.3936 36212.7872
Totales 60 834 48342.672

Media 13.9
Desviación estándar 3.4

Al sustituir los resultados de tabla en la fórmula 15 de la curtosis para datos agrupados, se


obtiene el siguiente resultado:

K = 6.13

Este resultado indica que la distribución presenta una forma leptocúrtica o curtosis alta
positiva, significando que la dispersión de los datos evidencia una alta concentración
alrededor de la media del conjunto.

3. DISTRIBUCIONES EMPÍRICAS Y TEÓRICAS:


NORMAL Y BINOMIAL

Objetivo del tema


Analizar los principios e implicaciones de las distribuciones normal y binomial, a partir de
la descripción de cada una, para complementar la visión sobre las medidas de tendencia
central y su vinculación con la investigación social.

Distribución de probabilidad

La distribución de probabilidad de una variable es una función que asigna a cada valor
definido sobre la variable, la probabilidad de que dicho valor ocurra. La distribución de
probabilidad está definida sobre el conjunto de todos los valores, y su suma es el rango de
valores de la variable.

Unidad 4 / Pág. 21
Estadística aplicada a la investigación social 1

La distribución de probabilidad está completamente especificada por la función de


distribución, para cada valor de la variable existe una probabilidad de ocurrencia.

Las distribuciones de probabilidad que se enseñan en este apartado del curso son: la
distribución normal, para variable continua, y la distribución binomial para variable
discreta.

Distribución normal

Es una distribución de probabilidad continua, y se aplica, por lo tanto, a las variables que
tienen escala intervalar o de razón, como pueden ser, en las intervalares: temperatura,
densidad, calificación, peso, estatura, medida de zapato, talla con cinta métrica, colesterol,
presión arterial, edad, precio, natalidad, superficie, volumen, medida cintura; y en las de
razón: dinero, ingreso, egresos, tiempo, distancia, consumo, alcoholímetro, saldo celular,
litros, espacio, porcentaje, servicios con medidor, watts, graduación de lentes, pulso, sonido,
altitud, electricidad, velocidad. Es evidente que la lista no es exhaustiva y que entra en ella
cualquier variable que tiene la propiedad de que si comparas dos valores el resultado es un
número.

Su utilidad dentro de las mediciones es diversa, y para nuestro caso será:

1. Determinar el rango en el que esperamos que la variable de escala intervalar o de


razón se presente con un porcentaje de probabilidad,
2. O lo contrario, determinar cuál es la probabilidad de un valor extremo de la variable.

A continuación se presenta la descripción gráfica del área bajo la curva:

Gráfica 6. Área normal bajo la curva

Y la curva se presenta:

Unidad 4 / Pág. 22
Estadística aplicada a la investigación social 1

Gráfica 7. Curva de distribución normal

Al dividir la curva en dos partes simétricas a partir de la media tenemos:

Gráfica 8. Curva de distribución normal

De cada lado se considera que existen tres desviaciones estándar que llamaremos sigma. A
la izquierda son negativas porque la variable disminuye, y a la derecha la variable crece. La
curva de distribución normal se divide en tres sigmas de cada lado de la media.

Unidad 4 / Pág. 23
Estadística aplicada a la investigación social 1

Gráfica 9. Curva de distribución normal divida en sigmas


Como puedes observar la simetría está en el valor de cero del gráfico.

En total, la distribución normal se divide en seis sigmas:

Gráfica 10. Curva de distribución normal divida en las 6


sigmas

De ésta forma podemos dividir el área original del 100% en seis áreas, simétricas alrededor
del cero.

Unidad 4 / Pág. 24
Estadística aplicada a la investigación social 1

Si la media es igual a 20 y la desviación estándar vale 5, tenemos el intervalo 3, 4 con una


desviación estándar de 15 a 25.

Entonces el valor superior del intervalo es la media más la desviación estándar, y el valor
inferior del intervalo es la media menos la desviación estándar.

En la curva de distribución normal el área entre la media es = a 0 y la primera sigma tiene


un valor de probabilidad de 0.3413= 34.13%.

Gráfica 11. Valor de una sigma

Puedes observar cómo la probabilidad de que el valor esté entre 15 y 20 es de 34.13%.

Si consideramos el área más o menos una sigma, tenemos un valor de probabilidad de


0.6826= 68.26%

Gráfica 12. Valor de más/menos un sigma

Unidad 4 / Pág. 25
Estadística aplicada a la investigación social 1

Así que la probabilidad de que el valor se encuentre entre el 15 y el 25 es de 68.26%.

Si consideramos el área de más menos dos sigmas, tenemos un valor de probabilidad de


0.95.44= 95.44%.

Gráfica 13. Valor de más/menos dos sigmas

Así que la probabilidad de estar entre el 10 y el 30 es de 95.44%.

Si consideramos el área de más menos tres sigmas, tenemos un valor de probabilidad de


0.9974= 99.74% que equivale al 100%.

Gráfica 14. Valor de más/menos tres sigmas

Unidad 4 / Pág. 26
Estadística aplicada a la investigación social 1

La probabilidad de estar entre 5 y 35 se considera del 100%, ya que la diferencia con


99.47% se considera no significativa, muy pequeña. La siguiente tabla te da una tabulación
de sigma Z que puedes usar para el cálculo de tus probabilidades:

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879

0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389

1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4014
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319

1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4173 .4719 .4725 .4732 .4738 .4744 .4750 .4756 .4761 .4767

2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936

2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4963 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4983 .4983 .4984 .4984 .4985 .4985 .4986 .4986

3.0 .4987

3.5 .4997

4.0 .4999
Ejemplo: para z= 1.96, el área sombreada es 0.4750 del área total que es 1.0000.

Tabla 7. Tabulación de sigma Z (Kazmier, 2006, p. 392).

Unidad 4 / Pág. 27
Estadística aplicada a la investigación social 1

Distribución binomial

Es una distribución de probabilidad discreta y dicotómica, y se aplica, por lo tanto, a las


variables que tienen dos valores como resultado posible, la escala que le corresponde es
nominal, como pueden ser el resultado de ganar o perder o el de presencia y ausencia de
del valor de la variable, y se puede aplicar a: equipos de fútbol, partidos políticos, meses,
personalidad, géneros musicales, cinematográficos, etcétera, tipos de enfermedad,
ocupación, color, raza, estaciones de tiempo, estaciones del metro, basura, hijos, tipos de
discapacidad, estado de ánimo, sabores, hora del día, nacionalidad, profesión, transporte
público, grupo sanguíneo, capacitación, universidades, ideología, planetas, estado civil,
vacunas, idiomas, lugares, aromas,… Es evidente que la lista no es exhaustiva y que entra
en ella cualquier variable que tiene la propiedad de que si comparas dos valores el resultado
es un número.

Se entiende que en la distribución binomial solo hay dos resultados posibles, como al lanzar
una moneda sólo puede resultar águila (a), ó sol (s).

Cada valor tiene una probabilidad de ½, ya que ½ más ½ = 1.

Pero, si tiramos dos monedas, entonces tenemos cuatro resultados posibles, aa, as, sa, ss,
dos de los resultados son equivalentes, as =sa si omitimos el orden, tenemos tres resultados
aa=1/4, as=1/2, ss=1/4, y de nuevo la suma da uno.

Esta es la propiedad que utiliza la distribución binomial para determinar el número de


repeticiones que podemos obtener de un mismo resultado al dejar caer muchas monedas.

Para tres monedas tenemos: aaa, aas, asa, ass, saa, sas, ssa, sss, y ocho resultados: aaa
= 1/8, aas =3/8, ass =3/8, y sss=1/8, y la suma es de nuevo uno.

Gráfica 15. Distribución binomial para 3 eventos

La generación de los coeficientes se puede realizar fácilmente a través del llamado triángulo
de Pascal.

Unidad 4 / Pág. 28
Estadística aplicada a la investigación social 1

Los coeficientes siguientes, se obtienen sumando los anteriores, se agrega un uno al inicio y
un uno al final y se repite la operación.

Gráfica 16. Generación de los coeficientes de Pascal

En la siguiente tabla se presentan los valores de los coeficientes hasta doce eventos de dos
resultados.

Triángulo de Pascal para determinar los valores de los coeficientes de las


combinaciones
Base, Potencia, Resultado, total
resultados cantidad de de coeficientes
posibles eventos

2 1 2 1 1

2 2 4 1 2 1

2 3 8 1 3 3 1

2 4 16 1 4 6 4 1

2 5 32 1 5 10 10 5 1

2 6 64 1 6 15 20 15 6 1

2 7 128 1 7 21 35 35 21 7 1

2 8 256 1 8 28 56 70 56 28 8 1

2 9 512 1 9 36 84 126 126 84 36 9 1

2 10 1024 1 10 45 120 210 252 210 120 45 10 1

2 11 2048 1 11 55 165 330 462 462 330 165 55 11 1

2 12 4096 1 12 66 220 495 792 924 792 495 220 220 12 1

Tabla 8. Triángulo de Pascal para 12 eventos

Y los resultados que presenta cada coeficiente pueden ser fácilmente visualizados, para n=5
tenemos: 1 resultado de cinco águilas, 1aaaaa; 5 resultados de 4 águilas y un sol, 5aaaas;
10 resultados de tres águilas y dos soles, 10 resultados de dos águilas y tres soles, 5
resultados de un águila y cuatro soles, y finalmente, 5 soles, 1sssss.

Unidad 4 / Pág. 29
Estadística aplicada a la investigación social 1

Entonces el número de águilas comienza en cinco y termina en cero, y los soles son al revés,
comienzan en cero y terminan en cinco.

Gráfica 17. Distribución binomial para 5 eventos

Resumen
Además de su agrupación y ordenación, para continuar el proceso de transformación de los
datos en información útil para la toma de decisiones, es importante conocer los distintos
procedimientos estadísticos que pueden emplearse. A lo largo de esta unidad has conocido
los principios generales de las medidas de tendencia central y de dispersión.

Aprendimos que la media, la media ponderada, la mediana y la moda se emplean para


representar a los valores de un conjunto que se ubican al centro de la distribución de la
curva normal. Su cálculo presenta ciertas ventajas y desventajas, pero de manera general
sirven como un primer acercamiento para comprender el comportamiento de los datos.

Para complementar estas medidas también existen las llamadas medidas de dispersión, que
son útiles para especificar, no sólo cuáles datos se ubican al centro de la distribución, sino
cuál es la distancia entre ellos, permitiendo así un panorama distinto para su descripción.
Las medidas revisadas incluyeron la desviación estándar, la varianza, el coeficiente de
variación, el sesgo y la curtosis.

Finalmente, se revisaron las distribuciones normal y binomial, que complementan el análisis


realizado con las medidas anteriores, en función de la explicación con respecto a la curva
normal de distribución.

Los procedimientos aprendidos durante estos temas te servirán como referente fundamental
para comprender el tema de población y muestreo en la siguiente etapa del curso.

Unidad 4 / Pág. 30
Estadística aplicada a la investigación social 1

Glosario
Elaborado por: Diana Isabel Moreno Padilla

Curtosis (K)
Es el nivel de picudez de una curva, esto es, su grado de elevación o aplanamiento (Rivera,
2005, p. 59). A diferencia del sesgo, la curtosis es una z4 sobre el número de sujetos: K =
z4/n. La curtosis al igual que el sesgo depende del valor y el signo. a) Valor: si el cero va de
+4 a -4 la curva es mesocúrtica. b) Signo: si es positivo se habla de una curva leptocúrtica.

Desviación estándar
La desviación estándar únicamente se puede emplear en medidas intervalares. Es una
puntuación que indica la distancia con relación a la media, razón por la que la media no
tiene significado sin la desviación. Por lo que la desviación representa la variabilidad
promedio de una distribución (Rivera, 2005, p. 54).

Medidas de dispersión (variabilidad)


Para Rivera (2005, p. 53) estas medidas son importantes en la descripción de la
distribución, debido a que indican el grado en que varían los datos con relación a la parte
central de la curva normal, lo que las convierte en un elemento indispensable de las medidas
de tendencia central; estas medidas de dispersión sólo se pueden aplicar a medidas de
rango e intervalares. Las mas empleadas son: rango, desviación estándar, varianza, sesgo,
curtosis y error estándar.

Rango (R)
El rango también conocido como recorrido (Mendenhall; Downie y Heath, citados en Rivera,
2005, p. 53) es la distancia entre el valor mínimo y el valor máximo de una distribución. Su
cálculo es fácil y rápido, no requiere fórmulas y se puede emplear en medidas ordinales e
intervalares. Por ejemplo: se quiere conocer el rango del rendimiento escolar de 42
alumnos, cuya calificación más alta fue de 9 y la más baja de 2. El R se obtiene de la resta
9-2 esto es el R=7.

Sesgo
Según Rivera (2005, p. 58), el sesgo refiere a la variación de una distribución, es el grado
de asimetría de la distribución observada por el número de casos agrupados en una sola
dirección. Su interpretación está asociada con el valor y el signo, esto es: Valor -4 a +4 y
Signo + -. El signo implica el nivel de asimetría de la curva, cuando más cercana está al
cero, la curva es normal, cuando más cercana está al cuatro, la curva es asimétrica o
sesgada.

Varianza
La varianza es la desviación estándar al cuadrado, indica una distancia con respecto a la
media ( ), su aplicación es el análisis de varianza (Anova) e indica cuánto de la variabilidad
de la variable dependiente es explicada por la variable independiente. De esta forma
muestra qué tanto de la variabilidad de la variable dependiente es explicada por las
diferencias de los individuos, proceso al que se le conoce como varianza de error (Rivera,
2005, p. 57).

Unidad 4 / Pág. 31
Estadística aplicada a la investigación social 1

Fuentes de información
• Anderson, D. (2008). Estadística para administración y economía. México: Thomson.
• Arkin, Hebert (2003). Statistical Methods. USA: Barnes & Noble.
• Blalock, H. (2000). Estadística Social. México: FCE.
• Chou, Ya-Lun (2000). Análisis Estadístico. México: Nueva Editorial Interamericana.
• Croxton, Frederick (2004). Estadística General Aplicada. México: Fondo de Cultura
Económica.
• Freund, J. (2006). Elementos modernos de estadística empresarial. México: Prentice
Hall.
• Hildebrand, D. (2007). Estadística aplicada a la administración y a la economía.
México: Addison Wesley.
• Kazmier, L. (2006). Estadística aplicada a la administración y economía. México: Mc
Graw Hill.
• Levin, J. (2002). Fundamentos de estadística en la investigación social. México:
Harla.
• Rivera, S. (2005). Aplicación de la estadística a la psicología. México: Porrúa,
Facultad de Estudios Superiores Zaragoza, UNAM.
• Rojas Soriano, R. (2007). Guía para realizar investigaciones sociales. México: Cal y
Arena.

Unidad 4 / Pág. 32

También podría gustarte