Está en la página 1de 36

Introducción a la Estadística

Cod. Asig. 1523

Unidad _1
Módulo 3

Caleta Olivia - Río Gallegos - Río Turbio - San


Julián

2010
Índice

UNIDAD 1 – MODULO III ............................................................................................................................................................................................ 4


Temas a desarrollar en este módulo ..................................................................................................................................................................... 4
Objetivos de aprendizaje ....................................................................................................................................................................................... 4

ANALISIS DE VARIABLES CUANTITATIVAS ............................................................................................................................................................ 5


Presentación Tabular............................................................................................................................................................................................. 5
Representación Gráfica ......................................................................................................................................................................................... 5
Variables cuantitativas discretas ..................................................................................................................................................................... 5
Gráficos de bastones o de líneas .............................................................................................................................................................. 5
Variables cuantitativas continuas .................................................................................................................................................................... 6
Histograma ................................................................................................................................................................................................. 6
Polígono de frecuencia .............................................................................................................................................................................. 7

ANÁLISIS DE LOS DATOS ......................................................................................................................................................................................... 8


MEDIDAS DE TENDENCIA CENTRAL....................................................................................................................................................................... 8
Media Aritmética .................................................................................................................................................................................................... 8
1.- Para datos no agrupados: .......................................................................................................................................................................... 8
2.- Si tenemos los datos presentados en una tabla simple de frecuencias: ................................................................................................... 9
3. Media aritmética de datos agrupados en intervalos de clase ................................................................................................................... 10
Un caso de cálculo de media aritmética es trabajar con Media aritmética ponderada ................................................................................. 11
Enumeraremos algunas propiedades de la media aritmética ....................................................................................................................... 12
Aspectos a tener en cuenta para el cálculo de la media aritmética .............................................................................................................. 13
Ventajas del uso de la media aritmética .................................................................................................................................................. 15
Desventajas en el uso de la media aritmética ......................................................................................................................................... 15
Mediana ............................................................................................................................................................................................................... 16
Cálculo de la mediana ......................................................................................................................................................................................... 16
1.- Para Datos no Agrupados ........................................................................................................................................................................ 16
2.- Para datos agrupados en tablas simples ................................................................................................................................................. 17
3.- Para datos agrupados en intervalos ......................................................................................................................................................... 17
Ventajas del uso de la mediana..................................................................................................................................................................... 19
Desventajas ................................................................................................................................................................................................... 19
Modo .................................................................................................................................................................................................................... 19
Cálculo del modo ................................................................................................................................................................................................. 19
1.- Para datos no agrupados: ........................................................................................................................................................................ 19
2.- Para datos agrupados en tabla de frecuencias simples........................................................................................................................... 19
3.- Para datos agrupados en intervalos de clase .......................................................................................................................................... 20
Ventajas y desventajas del uso del modo ........................................................................................................................................................... 21
Ventajas ......................................................................................................................................................................................................... 21
Desventajas ................................................................................................................................................................................................... 21
Características de la Media Aritmética, la Mediana y el Modo............................................................................................................................ 21

SELECCIÓN DE LA MEDIDA APROPIADA ............................................................................................................................................................. 23

MEDIDAS DE DISPERSION ..................................................................................................................................................................................... 24


Rango .................................................................................................................................................................................................................. 24
Ventajas ......................................................................................................................................................................................................... 25
Desventajas ................................................................................................................................................................................................... 25
Desvío estándar o típico ...................................................................................................................................................................................... 25
Cálculo del desvío estándar .......................................................................................................................................................................... 25
1.- Para datos agrupados en tablas simples ........................................................................................................................................... 25
2.- Para datos agrupados en intervalos ................................................................................................................................................... 26
Consideraciones Generales .......................................................................................................................................................................... 26
Ventajas ................................................................................................................................................................................................... 26
Desventajas ............................................................................................................................................................................................. 26
Variancia .............................................................................................................................................................................................................. 27
Propiedades de la variancia .......................................................................................................................................................................... 27
Unpabimodal

Ventajas ................................................................................................................................................................................................... 27
Desventajas ............................................................................................................................................................................................. 27

MEDIDA DE DISPERSION RELATIVA ..................................................................................................................................................................... 28


Coeficiente de variación ...................................................................................................................................................................................... 28

RESUMEN ................................................................................................................................................................................................................. 30

(1523) - Introducción a la Estadística - Página Nº 2


Percentiles y Cuartiles ......................................................................................................................................................................................... 30
Cálculo del primer cuartil ..................................................................................................................................................................................... 30
1.- Para datos agrupados en tablas de frecuencias simples ......................................................................................................................... 30
2.- Para datos agrupados en intervalos ......................................................................................................................................................... 31
Intervalo intercuartilar .......................................................................................................................................................................................... 32
Desviación semi intercuartilar .............................................................................................................................................................................. 33
Asimetría o Sesgo ............................................................................................................................................................................................... 33
Coeficiente de asimetría ...................................................................................................................................................................................... 33
Curtosis ................................................................................................................................................................................................................ 34

OBSERVACIONES ................................................................................................................................................................................................... 36
Estadísticos muestrales ....................................................................................................................................................................................... 36
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 3


UNIDAD 1 – MODULO III

Temas a desarrollar en este módulo

Análisis de variables cuantitativas. Medidas de tendencia central: media aritmética, mediana y modo.
Interpretación y usos. Otras medidas de posición. Cuartilos, deciles y percentiles. Medidas de dispersión:
rango, desviación semi- intercuartilar, desviación media cuadrática, variancia, desvío estándar.
Características y usos de los mismos. Coeficiente de variación Asimetría. Curtosis.

Objetivos de aprendizaje

Al finalizar este Módulo Ud. podrá


• Calcular e interpretar las medidas de tendencia central.
• Describir los datos a través de las medidas de tendencia central y de dispersión
• Desarrollar e interpretar cuarteles, deciles y percentiles
• Calcular, entender e interpretar el coeficiente de variación

Lectura Complementaria
Robert Jonson – Patricia Kuby – Estadística Elemental lo esencial – Capítulos 1
y 2 – Internacional Thomson editores.

Hanke / Reitsch John – Estadística para negocios – Capítulos 1, 2, 3, 4, 5 ,6 –


Editorial Irwin – España.
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 4


ANALISIS DE VARIABLES CUANTITATIVAS

Presentación Tabular

En general se presentan mediante tablas de dos columnas. En la primera se colocan los valores que
toma la variable en estudio o se agrupa la misma en intervalos teniendo en cuenta lo explicado en el
Módulo I. Y en la segunda el número de observaciones correspondientes a cada una de ellas. Puede
agregarse una tercer columna con la frecuencia relativa de cada uno de los valores de la variable y una
cuarta columna con las frecuencias acumuladas.

Representación Gráfica

Variables cuantitativas discretas

Gráficos de bastones o de líneas

Este gráfico se emplea para representar la distribución de una variable cuantitativa discreta. Sobre
una misma recta (la horizontal) se dispone los valores de la variable. En cada uno de ellos se traza un
segmento perpendicular al eje horizontal cuya longitud corresponde a la frecuencia de ese valor de
variable de acuerdo a la escala elegida. Este gráfico resulta muy similar en sus características al gráfico
de barras por lo que en muchas ocasiones se utiliza equivocadamente este último. Es importante hacer
notar que el gráfico de barras representa una distribución con variable cualitativa y el de bastones se
refiere a una distribución con variable discreta en la que el segmento muestra la frecuencia exactamente
en el valor de variable al que está referido.

Ejemplo
Tomamos como ejemplo el Módulo 1 (página 11) que está referido al :
Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior.
Nº de días fi Fi
3 3 3
4 3 6
5 1 7
6 3 10
7 1 11
8 4 15
10 1 16
13 2 18
14 1 19
15 1 20
Total 20

Fuente: Jefatura Personal Hotel

Grafico de frecuencia absoluta: de bastones o de líneas


Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 5


Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior.

FRECUENCIA ABSOLUTA

Cantidad
3

0
3 4 5 6 7 8 10 13 14 15
Números de Días

Variables cuantitativas continuas

Histograma

Se utilizan para distribuciones con variable cuantitativa continua o para distribuciones de variable
cuantitativa discreta con un gran número de datos que haya justificado su agrupación en intervalos. El
objetivo del histograma es mostrar el tipo de distribución de la que se trata por lo tanto siempre resulta
útil atender al efecto visual de este gráfico. Como los bloques representan el área de un rectángulo cuya
base es la amplitud del intervalo y cuya altura es la frecuencia correspondiente a esta clase, a efectos de
no distorsionar la impresión visual, se recomienda que los intervalos tengan la misma amplitud. En el
histograma se representa sobre el eje de abscisas (X) los límites de las clases. Dichos límites deben
corresponder al límite inferior de cada uno de ellas. Por este motivo los bloques resultan adyacentes.
Sobre el eje de ordenadas (Y) se representa los valores de frecuencia absoluta de la distribución.
Es importante resaltar que cuando los intervalos no son de la misma amplitud la altura de cada
bloque no se construye proporcional a las frecuencias sino que debe atenderse a la siguiente relación:

Superficie = base x altura, por lo tanto, altura = Superficie / base correspondiendo la


superficie de los rectángulos a la frecuencia.

Es decir, que debería calcularse la altura de cada rectángulo considerando aquellos intervalos que
han mostrado variación en su correspondiente amplitud.

Ejemplo
Defunciones de menores de 1 año según edad en meses de los fallecidos
Provincia de Santa fe, Año 1991

Edad en meses Nº de defunciones


Total 1950
Menor de 1 861
Unpabimodal

1a5 694
6 a 11 395
Para menos de 1 mes la altura será 861/1 = 861
De 1 a 5 meses la altura será 694/5= 139
De 6 a 11 meses la altura será 395/6 = 66

(1523) - Introducción a la Estadística - Página Nº 6


Polígono de frecuencia

Cuando se desea comparar dos o más distribuciones de frecuencia resulta de utilidad el uso de un
gráfico de áreas denominado polígono de frecuencias. En el polígono de frecuencias se considera que
las observaciones correspondientes a un intervalo están concentradas en el punto medio del mismo En
éste se marca el valor de frecuencia que le corresponde con un punto. Posteriormente se unen todos los
puntos obtenidos mediante segmentos, recordando que la frecuencia en el punto medio de un imaginario
intervalo anterior al primero considerado y posterior al último corresponde a cero, con lo que quedaría
encerrada el área con la curva resultante. Si bien a partir del histograma es posible marcando los puntos
medios en el lado superior de cada bloque llegar al polígono de frecuencia no es necesario la realización
de ambos puesto que el área que comprenden es equivalente.

Ejemplo
Tomamos como ejemplo el ejercicio de las páginas 13 y 14 del Módulo I.
Ingreso mensuales por turismo extranjero al país durante los últimos 4 años (en
millones de pesos)

Ingresos (en millones Nº de Fi


$) meses
Intervalos fi
3.3 – 19.1 26 26
19.1 – 34,9 7 33
34.9 – 50.7 6 39
50.7 – 66.5 5 44
66.5 – 82.3 2 46
82.3 – 98.1 2 48
Total 48

Fuente INDEC

INGRESOS POR M ES
28
26
24
22
20
Cantidad de Meses

18
16
14
12
10
8
6
4
2
0
3.3 – 19.1 19.1 – 34,9 34.9 – 50.7 50.7 – 66.5 66.5 – 82.3 82.3 – 98.1

Ingresos (en miles$)


Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 7


ANÁLISIS DE LOS DATOS

Hasta este momento, para describir un conjunto de datos, se han empleado las tablas y los gráficos
que son muy útiles para tener en forma rápida una visión general del comportamiento de los valores que
asume la variable. Incluso, en el caso de variables cualitativas los cuadros y gráficos son suficientes para
dar una descripción completa. Para describir el comportamiento de las variables cuantitativas se requiere
una mayor precisión. Es necesario que esa descripción trascienda lo visual y lo subjetivo. Para
solucionar esta situación planteada surgen las medidas numéricas. La precisión deseable al describir el
conjunto de datos numéricos se refiere a dos aspectos que pueden traducirse en dos preguntas:
• ¿Existe algún valor de la variable que represente a la mayoría de los valores del conjunto de
datos?
• ¿Qué tan separados están, entre sí, los diferentes valores que asume la variable?
La primera pregunta se refiere a las llamadas medidas de tendencia central y la segunda, a las
llamadas medidas de dispersión.

MEDIDAS DE TENDENCIA CENTRAL

Algo que causa confusión en la interpretación de un conjunto de datos y quizás lleva a considerar a
la Estadística como un arte y no como una ciencia es la ambigüedad en el uso del término promedio.
Este se emplea comúnmente como sinónimo de normal. Es por ello que los estadísticos en general lo
han eliminado de su vocabulario técnico y se refieren en cambio a medidas de tendencia central. Estas
medidas de tendencia central se las define como un indicador de localización central empleado en la
descripción de las distribuciones de frecuencia. Una distribución de frecuencia representa una
organización de datos pero no nos permite por sí misma establecer proposiciones cuantitativas, ya sea
describiendo la distribución o comparando dos o más distribuciones.
Las medidas de tendencia central también llamadas de posición sirven para representar con un solo
número todo un conjunto de datos. Son valores representativos de una serie de datos y como tienden a
caer en la parte central de una serie es que llevan el nombre de medidas de tendencia central.
Entre las más usadas se encuentran:
a) Media aritmética b) Mediana c) Modo
La selección de cada una de ellas como medidas resumen presenta ventajas y desventajas que
dependen del tipo de datos y del propósito que se persiga al calcular dichas medidas.

Media Aritmética

Se la define también como media, promedio o valor esperado. Es el promedio que


conocemos, lo obtenemos sumando todos los valores y dividiendo el resultado por la
cantidad total de valores.
Ahora vamos a ver como hacemos el cálculo de la media aritmética cuando:

1.- Para datos no agrupados:

En este caso la media aritmética se obtiene sumando los valores observados y dividiéndolos por el
Unpabimodal

total de observaciones. Es decir

X =
X 1 + X 2 + ......... + X i + ....... + X N
; o más brevemente =
∑X i
donde
N N

∑ es el signo sumatoria que quiere decir que debemos sumar a través de todos los valores
que toma la var iable X , en este ejemplo los días de estadía de los pasajeros en esa cabaña

(1523) - Introducción a la Estadística - Página Nº 8


donde Xi : Valores que asume la variable en el conjunto de datos observados
N: Total de datos en la distribución

Ejemplo
La estadía de los pasajeros que se alojaron en una cabaña fueron:
6, 9, 5, 9, 10, 8, 7

6 + 9 + 5 + 10 + 8 + 7
X = = 7,7 días
7

La media aritmética de estos valores es: 7,7 días


Es decir que esos pasajeros tuvieron una estadía promedio de 7,7 días.

2.- Si tenemos los datos presentados en una tabla simple de frecuencias:

∑X i fi
X 1 f1 + X 2 f 2 + ......... + X N f N
X = i =1
=
N N
donde fi son las frecuencias absolutas de cada uno de los valores de la variable.

Retomamos el ejemplo
Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior.

Nº de días fi Xifi
(1) (2) (3)=
(1)x(2)
3 3 9
4 3 12
5 1 5
6 3 18
7 1 7
8 4 32
10 1 10
13 2 26
14 1 14
15 1 15
Total 20 148

Reemplazamos los valores en la fórmula

∑x f i i = 148 Es el total de días que faltaron por enfermedad los empleados del hotel
N = 20 úmero de empleados del hotel
Unpabimodal

X=
∑x f i i
=
148
= 7,4
N 20
Los empleados del Hotel se ausentaron en promedio 7,4 días por enfermedad el
año anterior

(1523) - Introducción a la Estadística - Página Nº 9


3. Media aritmética de datos agrupados en intervalos de clase

Cuando los datos se presentan en una distribución de frecuencias, todos los valores que caen
dentro de un intervalo de clase determinado se consideran coincidentes con el punto medio de la clase.
En este caso los valores x1, x2, ,xi..., representan el punto medio del 1º, 2º, ....... i-ésimo intervalo y
f1, f2, fi, las frecuencias correspondientes a cada intervalo. La fórmula para el cálculo de la media
aritmética será:
N

∑X i fi
X = i =1
=
1
( X 1 f1 + X 2 f 2 + ......... + X N f N )
N N

Retomamos el ejemplo relacionado con los ingresos por turismo


Ingresos mensuales por turismo extranjero al país durante los últimos 4 años (en
miles de pesos)

Ingresos (en miles$) Nº de Punto medio


Intervalos meses (xi)
fi
3.3 – 19.1 26 11,2
19.1 – 34,9 7 27,0
34.9 – 50.7 6 42,8
50.7 – 66.5 5 58,6
66.5 – 82.3 2 74,4
82.3 – 98.1 2 90,2
Total 48

Fuente INDEC
Punto medio del primer intervalo

LI + LS
x1 = donde
2
LI = Límite inf erior int ervalo
LS = Límite sup erior int ervalo
Lo que hemos hecho es un promedio entre el Límite Inferior y el límite sup erior
3,3 + 19,1
= 11,2 (1)
2

Otra forma de calcular el punto medio es hacer la amplitud del intervalo (Límite Superior menos
Límite inferior) dividido 2 y ese valor sumárselo a cada límite inferior
Para el primer intervalo

Amplitud Límite Superior − Límite Inferior 19,1 − 3,3 15,8


= = = = 7,9
2 2 2 2

Ahora sumamos 7,9 a 3,3 que es el Límite Inferior de ese intervalo


3,3 + 7,9 = 11,2 Que es el mismo valor que en (1)
Unpabimodal

Agregamos la columna (4)

(1523) - Introducción a la Estadística - Página Nº 10


Ingresos (en miles$) Nº de Punto medio Xifi
Intervalos (1) meses (xi) (3) (4)= (2)x(3)
fi (2)
3.3 – 19.1 26 11,2 291,2
19.1 – 34,9 7 27,0 189
34.9 – 50.7 6 42,8 256,8
50.7 – 66.5 5 58,6 293
66.5 – 82.3 2 74,4 148,8
82.3 – 98.1 2 90,2 180,4
Total 48 1359,2

1359,2 millones de pesos es el total de ingresos por turismo en los últimos 4 años.

Para calcular la media aritmética hacemos

∑X
1 1
X = i fi = 1359,2 = $28,317
N 48
El ingreso promedio por turismo en los últimos cuatro años ha sido de $28.317.000

Un caso de cálculo de media aritmética es trabajar con Media aritmética ponderada

A veces, los valores x1, x2, etc se asocian con ciertos pesos, w1, w2, ....., que dependen del
significado o importancia asignados a los valores. En tal caso, la media aritmética se calcula en la
siguiente forma: N

X 1W1 + X 2W2 + ................ + X N W N ∑X W i i


X = N
= i =1
N

∑W
i =1
i ∑W
i =1
i

Por ejemplo
Una persona viaja desde Caleta Olivia a Capital Federal y carga nafta en Caleta
Olivia a $2,56 el litro, en Puerto Madryn a $2,60 el litro, en Viedma a $3,55 el litro
y en Olavarría a $3,60 el litro. ¿Se puede decir que en promedio esa persona
pagó $ 3,08 el litro de nafta, que resulta de sumar 2,56+2,6+3,55+3,6 y dividir
por 4?
Esto se podría hacer si hubiese cargado los mismos litros de nafta en todo el
viaje. Qué pasaría si esa persona carga 50 litros en Caleta Olivia, 45 litros en
Puerto Madryn, 40 litros en Viedma y 42 litros en Olavarría. La cantidad de
dinero que esa persona gastó en el viaje fue
(2,56x 40) + (2,60x 45) + (3,55x40) + (3,60 x42) = 128+117+142+151,2 = $538,20
La cantidad de litros de nafta cargada (Σwi) = 50 + 45 + 40 + 42 = 187
Por lo que el costo promedio de gasto en nafta fue $2,88 que resulta de dividir

538,20
Unpabimodal

≈ 2,88
187

(1523) - Introducción a la Estadística - Página Nº 11


Enumeraremos algunas propiedades de la media aritmética

• Una propiedad muy importante de la media aritmética es que la suma algebraica de los
desvíos de los valores con respecto a la media aritmética es igual a 0. En otras palabras

∑ d i = ∑ (X i − X ) = 0
N N

i =1 i =1

donde di son los desvíos con respecto a la media aritmética.


La prueba de este enunciado es:

∑ (X − X ) = ∑ X i − ∑ X = NX − NX = 0
N N N

i
i =1 i =1 i =1

Es importante hacer notar que:


N
1
X =
N
∑X
i =1
i

de lo que se deduce
N

∑X
i =1
i = NX

En el ejemplo Nº 1 (página 8) La estadía de los pasajeros que se alojaron los pasajeros de una
cabaña fueron:
6, 9, 5, 9, 10, 8, 7
N

∑ d = (5 − 7,7 ) + (6 − 7,7 ) + (7 − 7,7 ) + (8 − 7,7 ) + (9 − 7,7) + (10 − 7,7 ) =


i =1
i

= −2,7 − 1,7 − 0,7 + 0,3 + 1,3 + 2,3 ≅ 0


donde la media aritmética es 7,7

Cuando los datos están agrupados

f i = ∑ (X i − X )f i = 0
N N

∑d
i =1
i
i =1

• Otra propiedad importante de la media aritmética es que la suma de los cuadrados de los
desvíos con respecto a la media aritmética es un mínimo. Esto significa que la sumatoria de
los cuadrados de las desviaciones con respecto a la media aritmética es menor que la suma
de los cuadrados de las desviaciones con respecto a cualquier otro valor distinto de la media
aritmética. Si llamamos con Σ ri a la suma de los desvíos con respecto a otro valor que no sea
la media aritmética se tiene que:
N N
Para datos no agrupados
∑ d i2 < ∑ ri2
i =1 i =1
Unpabimodal

N N
Para datos agrupados
∑d
i =1
i
2
f i < ∑ ri 2 f
i =1

Esta propiedad nos permite definir a la media como la medida de tendencia central que hace mínima
la suma de los cuadrados de las desviaciones en torno a ella. El método de localización de la media

(1523) - Introducción a la Estadística - Página Nº 12


mediante la búsqueda de la suma de los cuadrados se llama método de mínimos cuadrados que es de
considerable valor en la Estadística.

Seguimos con el ejemplo

∑d =(5 − 7,7)
2
i
2
+ (6 − 7,7)2 + (7 − 7,7)2 + (8 − 7,7)2 + (9 − 7,7)2 + (10− 7,7)2 =
− 2,72 + (−1,7)2 + (−0,7)2 + 0,32 +1,32 + 2,32 = 7,29 + 2,89+ 0,49+ 0,09+1,69+ 5,29 = 17,74
Vamos ahora a restarle cualquier constante
ri = (xi – 8)

∑r i
2
= (5 − 8) 2 + (6 − 8) 2 + (7 − 8) 2 + (8 − 8) 2 + (9 − 8) 2 + (10 − 8) 2 =
( −3) 2 + (−2) 2 + (−1) 2 + (0) 2 + 12 + 2 2 = 9 + 4 + 1 + 1 + 4 = 19
donde ∑d i
2
= 17,74 p ∑r i
2
= 19

• Otra propiedad es que la media aritmética es mayor que el menor valor observado y menor
que el mayor valor observado.
Si designamos a X1 como el menor valor y XN como el mayor se cumple que:
X1 < Χ < XN
En el caso que todos los valores sean iguales la media aritmética coincide con dicho valor.

Tener en cuenta cuando realizamos el cálculo de la media aritmética que el resultado no


sea menor que el menor valor de la distribución ni mayor que el mayor.

En nuestro ejemplo nunca el promedio de estadía en la cabaña podría haber dado como resultado
un valor menor que 5 ni mayor que 10.
• Si una constante C, se suma a cada puntuación de un grupo cuya media es Χ, las
puntuaciones resultantes tendrían una media igual a Χ+C
N N N

∑ (X + C)=
1 1 1 1
N i =1
i
N
∑X
i =1
i +
N
∑C =
i =1
X +
N
× NC = X + C

Aspectos a tener en cuenta para el cálculo de la media aritmética

• Cuando una distribución tiene uno o los dos extremos indeterminados (alguno de los
intervalos abiertos, sin límite superior o límite inferior) no hay indicación acerca del valor que
deba elegirse como representativo para el cálculo de la media. En nuestro ejemplo si el primer
intervalo hubiese sido “menos de 3,3” y/o el último hubiese sido “82,3 o más”. Si
supusiéramos que el grupo indeterminado tiene el mismo punto medio que el que le precede,
Unpabimodal

esto daría generalmente un valor muy bajo; ello se debe a que la razón por la cual se suele
dejar una clase abierta es porque contiene unas pocas frecuencias dispersas entre valores
distintos. Para resolver estos problemas se deberá disponer de los valores de esta clase
abierta y a partir de ellos obtener un valor promedio.

(1523) - Introducción a la Estadística - Página Nº 13


• Intervalos de clase desiguales, en este caso la media calculada a través de esta distribución
es sólo una aproximación de la verdadera media calculada sobre los datos originales (toda
vez que se utilizan intervalos, aún cuando éstos sean iguales, la media es una aproximación).
• Valores aberrantes: En algunos casos, en una serie se presentan datos insólitos o valores
extremos muy altos o muy bajos con respecto a los demás. En estos casos podemos
desechar esos valores porque pueden aparecer por la introducción de un factor no
homogéneo o no comparable en la situación o más apropiadamente podemos utilizar otras
medidas de tendencia central. En cualquiera de las dos situaciones que eligiéramos se
debería acompañar el promedio sin la exclusión de esos valores extremos.
• Promedio de porcentajes: cuando se desee promediar porcentajes se deberá tomar en
cuenta su base como factor de ponderación.
Para entender esto lo veremos con un ejemplo

Ejemplo
Pasajeros de un hotel según edad por tipo de habitación en un hotel de la ciudad
de Santa Fe – 1er. Semestre 2008.

Habitaciones Total de pasajeros % pasajeros de menores


de 12 años
Dobles 1232 18
Triples 726 36
Cuádruples 426 39
Otros 558 23
Total 2942 26,4

Fuente: Libro Registro del Hotel – Año 2008

Si queremos calcular el porcentaje promedio de los menores de 12 años en ese


hotel lo obtenemos dando a cada porcentaje el peso correspondiente
representado por el número pasajeros en cada tipo de habitación en el Hotel, es
decir:

X =
(18 × 1232 ) + (36 × 726 ) + (39 × 426 ) + (23 × 558 ) = 26 ,4
2942

Traten de sumar los cuatro porcentajes y dividir por 4 para ver el valor
promedio que da y comparar con el contenido.

Promedio de promedios: el problema es similar al del caso anterior. Veamos un ejemplo

Ejemplo
Promedio de permanencia de los pasajeros de un hotel según su lugar de
residencia en Villa 25 de Mayo – Año 2007
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 14


Lugar de Residencia Número de pasajeros Promedio días de
permanencia
Patagonia Argentina 6.748 7,8
Otro lugar de la Argentina 4.561 5,6
Chile 2.103 11,2
Otro país extranjero 64 14,3
Total 13.476 7,6

Fuente: Libro de registro Hotel


Si desearíamos saber el promedio de permanencia total.

 1
X = (7,8 × 6748) + (5,6 × 4561) + (11,2 × 2103) + (14,3 × 64) = 7,6
 13476 

Como puede observarse no se debe sumar los cuatro promedios y dividir por cuatro. NO
DEBEN HACER PROMEDIO DE PROMEDIOS salvo que el N sea el mismo para todas las
categorías. En este ejemplo si el número de pasajeros hubiera sido el mismo para cada lugar de
residencia habitual de los mismos.

Ventajas del uso de la media aritmética

• Es de muy fácil cálculo


• Se puede interpretar sencillamente.
• Resulta de mucha utilidad en desarrollos matemáticos.
• Es la medida más utilizada
• Tiene en cuenta todos los datos de la distribución

Desventajas en el uso de la media aritmética

• Como se dijo en las ventajas que en su cálculo se tienen en cuenta todos los valores de la
distribución tiene el inconveniente de que si ésta posee valores extremos, excepcionalmente
raros y poco significativos, éstos producen una distorsión sobre el valor de la media alterando
su representatividad. Esto se agrava cuando los datos con que se cuentan son poco
numerosos. Por ejemplo, si se quiere hallar la talla media de los de alumnos de una clase y
hay un alumno que mide 2,10 m., ese valor alterará considerablemente la talla media de la
clase.
• No siempre es posible calcular la media aritmética. Por ejemplo cuando los datos de la
distribución se encuentran agrupados en intervalos y existe una clase abierta.
En los casos en que resulta inconveniente el uso de la media aritmética, para solucionar el problema
se utilizan otras medidas de tendencia central que se desarrollarán a continuación.
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 15


Mediana

La mediana es el valor de la variable que divide a un conjunto de datos ordenados de


menor a mayor en dos partes iguales. Otra forma de expresarla es diciendo que es el
valor de la variable que acumula hasta él el 50% de la distribución.

Cálculo de la mediana

1.- Para Datos no Agrupados

Si tenemos los datos sin agrupar, debemos seguir los siguientes pasos
• Ordenamos los datos de menor a mayor
• Determinamos el lugar que ocupa la mediana. Si n (tamaño de la muestra) ó N (tamaño de
la población) es impar, la mediana coincide con el valor central y su lugar se determina
haciendo N + 1.
2
En el ejemplo Nº 1 (página 8) La estadía de los pasajeros que se alojaron en una cabaña fueron:
6, 9, 5, 9, 10, 8, 7
Ordenamos de menor a mayor: 5 6 7 8 9 9 10

N +1 7 +1
Como N es impar para encontrar el lugar de la mediana hacemos = =4
2 2

Es decir, que aquel valor que ocupe el lugar 4 es el valor de la Mediana. En nuestro ejemplo
el lugar 4 lo ocupa el valor 8, ese es el valor de la mediana

Ejemplo
Las tallas
tallas en cm. de 12 patinadoras de un equipo de patinaje artístico son:
169, 150, 162, 155, 157, 153, 164, 153, 170, 167, 172, 167,
Ordenamos: 150, 153, 153, 155, 157, 162, 164, 167, 167, 169, 170,
172
Al ser par el número de datos el lugar de la mediana es 12/2 = 6. Hacemos una
semisuma entre el 6º y el 7º.
Se halla la media aritmética de las dos 162 + 164 = 163 cm.
2
Es decir Mna =163 cm
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 16


Hay que tener en cuenta que N/2 o (N+1) / 2 representan el lugar que ocupa la
mediana, es lo que se llama orden de la mediana. La mediana es el valor de la
variable al que le corresponde ese lugar.

2.- Para datos agrupados en tablas simples

En estos casos procedemos de la siguiente manera


• Calculamos el orden de la mediana
• Buscamos en la tabla de frecuencias acumuladas (Fi) el orden o lugar que hallamos
• Miramos cual es el valor de la variable al que le corresponde ese lugar.

Volvemos al ejemplo
Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior

Nº de días fi Fi
(1) (2)
3 3 3
4 3 6
5 1 7
6 3 10
7 1 11
8 4 15
10 1 16
13 2 18
14 1 19
15 1 20
Total 20

Fuente: Jefatura de personal del hotel

- Calculamos el orden o lugar de la mediana. Como N es par hacemos


20
Lugar de la mediana o mediana orden u orden de la mediana = = 10
2
- Buscamos en la tabla de frecuencias acumuladas el lugar 10
- Vemos en la columna de la variable a qué valor le corresponde al lugar 10.
El valor de la mediana es 6
¿Qué significa este valor? Lo podemos pensar como que el 50% de los
empleados de ese hotel faltaron hasta 6 días por enfermedad en el año anterior

3.- Para datos agrupados en intervalos

Para el caso en que tengamos los datos agrupados la mediana se obtiene por interpolación.
Unpabimodal

• Se calcula el orden de la mediana, dividiendo el total de observaciones por dos si N es par o


haciendo (N + 1)/2 si N es impar.
• Se busca el intervalo al cual pertenece ese lugar. Para ello se utiliza la columna de las
frecuencias acumuladas.

(1523) - Introducción a la Estadística - Página Nº 17


• Encontrado el intervalo donde cae la mediana, debe determinarse el punto del mismo al cual
corresponde. Se usa la siguiente fórmula:

 N  
  − Fi −1  
2 
Mna. =Li +  × C
donde:  fi 
 
 
Li: Límite inferior del intervalo donde está ubicada la mediana
Fi-1: Frecuencia acumulada del intervalo anterior al correspondiente a la mediana
fi : Frecuencia absoluta del intervalo donde se encuentra la mediana
C: Amplitud del intervalo donde cae la mediana

Volvemos al ejemplo
Ingresos mensuales por turismo extranjero al país durante los últimos 4 años (en
miles de pesos)

Ingresos (en millones Nº Fi


$) de meses
Intervalos fi
3.3 – 19.1 26 26
19.1 – 34,9 7 33
34.9 – 50.7 6 39
50.7 – 66.5 5 44
66.5 – 82.3 2 46
82.3 – 98.1 2 48
Total 48

Fuente: Censo Nacional de Población y Vivienda. Año 1991


Para calcular la mediana:
- Calculamos la mediana orden. Como 48 que es el número total de
observaciones (N) es un número par hacemos
N 48
= = 24
2 2
Quiere decir que el orden de la mediana es el 24, o el lugar que ocupa la
mediana es el lugar 24

- El lugar 24 se encuentra en el intervalo (3,3 – 19,1) miles de pesos, o sea la


mediana se encuentra en el intervalo 3,3 – 19,1.
- Ahora calculamos el valor de la mediana con la fórmula:

 N  
  2 − Fi −1  
Mna. = Li +    × C  = 3,3 +  (24 − 0) × 15,8 = 3,3 +  24 × 15,8 
 26   
 fi     26 
 
 
= 3,3 + 14,58 = 17,88
Unpabimodal

Mna= 17,88 significa que el 50 % de los meses ingresaron por turismo extranjero
menos de 17.880.

(1523) - Introducción a la Estadística - Página Nº 18


Ventajas del uso de la mediana

• No se ve afectada por los valores extremos por lo que la podemos utilizar en aquellos casos
en que no es utilizable la media aritmética.
• Es fácil de comprender.
• Se la puede calcular cuando utilizamos intervalos abiertos y cuando trabajamos con
intervalos desiguales.

Desventajas

• No podemos hacer cálculos adicionales con la mediana.


• No utiliza mucha información de un conjunto de datos.
• No es fácil ordenar un conjunto de números.

Modo

El modo de un conjunto de valores es aquel valor de la variable que se presenta con


mayor frecuencia, el valor más común. Otra definición sería que es el valor de variable en
torno al cual los valores tienden a concentrarse.

El modo puede no existir, son aquellas distribuciones en las que no hay ningún valor que se repita
más que otro. Otras veces, existiendo puede no ser único. Hay distribuciones con dos modos, se llaman
bimodales o varios modos denominadas multimodales.

Cálculo del modo

1.- Para datos no agrupados:

Si tenemos datos sin agrupar, se lo encuentra fácilmente observando cual es el valor que más se
repite.
En el ejemplo Nº 1 (página 8) La estadía de los pasajeros que se alojaron en una cabaña fueron:
6, 9, 5, 9, 10, 8, 7
El Modo o Moda es 9 ya que es el valor que tiene la mayor frecuencia

2.- Para datos agrupados en tabla de frecuencias simples

En este caso nos fijamos qué valor de la variable corresponde a la mayor frecuencia absoluta.
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 19


Volvemos al ejemplo
Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior.

Nº de días fi Fi
(1) (2)
3 3 3
4 3 6
5 1 7
6 3 10
7 1 11
8 4 15
10 1 16
13 2 18
14 1 19
15 1 20
Total 20

Fuente: Jefatura de personal del hotel


Para determinar el valor del Modo o Moda debemos tener en cuenta la
frecuencia absoluta más alta, en este caso es 4, esa frecuencia absoluta le
corresponde al valor 8.

3.- Para datos agrupados en intervalos de clase

Existen varios métodos para calcular el modo. Cada método puede darnos un valor diferente, pero
aproximado, para un mismo conjunto de datos.
 f2 
• Un método es el que se calcula con la siguiente fórmula: (a) Modo = Li +  × C
f
 2 + f 1 
Donde:
Li: Límite inferior del intervalo modal (el cual se determina localizando la frecuencia absoluta mayor)
f1: Frecuencia absoluta del intervalo anterior al intervalo modal
f2: Frecuencia absoluta del intervalo posterior al intervalo modal
C: Amplitud del intervalo

Si aplicamos este método al ejemplo


Ingresos mensuales por turismo extranjero al país durante los últimos 4 años (en
miles de pesos)

Ingresos (en Nº Fi
millones $) de meses
Intervalos fi
3.3 – 19.1 26 26
19.1 – 34,9 7 33
Unpabimodal

34.9 – 50.7 6 39
50.7 – 66.5 5 44
66.5 – 82.3 2 46
82.3 – 98.1 2 48
Total 48
Fuente: INDEC

(1523) - Introducción a la Estadística - Página Nº 20


El modo cae en el intervalo (3,3 – 19,1) porque es el que tiene la mayor
frecuencia absoluta.
Li: Límite inferior del intervalo modal (3,3)
f1: Frecuencia absoluta del intervalo anterior al intervalo modal (0)
f2: Frecuencia absoluta del intervalo posterior al intervalo modal (7)
C: Amplitud del intervalo (15,8)

× 15,8) = 3,3 + (1 × 15,8) = 19,1


7
Para calcular su valor: Modo = 3,3 + (
0+7
El modo es 19,1

Ventajas y desventajas del uso del modo

Ventajas

• Es la medida de tendencia central que más fácilmente se determina, puesto que la


obtenemos por inspección y no por cómputo.
• Es la medida que corresponde usar en algunas situaciones aún cuando no haya
impedimentos para el cálculo del promedio. Nos da una idea del valor más común.

Desventajas

• En el caso de distribuciones bimodales o multimodales no hay forma lógica de determinar


qué valor debe ser escogido como modo. En este caso puede ser un aviso de que es muy
probable que se estén mezclando variables que sería conveniente poder separar.
• Es un valor muy inestable principalmente si la distribución tiene poca cantidad de datos.

Características de la Media Aritmética, la Mediana y el Modo

• La media aritmética está en el centro de gravedad o punto de equilibrio de la distribución. La


mediana divide a la curva en dos partes iguales. El modo es el valor que queda en la
elevación máxima de la curva.
• La media aritmética puede tratarse algebraicamente; puesto que X = Σ Xi/N se deduce que
si se conocen dos valores de los tres (media, Σ Xi, ó N) puede calcularse el tercero, así:
N

N N ∑X i

∑ ∑
1 i =1
X = Xi; X i = X • N; N=
N i =1 i =1
X

Además usando ponderaciones adecuadas puede promediarse una serie de medias aritméticas
para obtener la media aritmética de la distribución combinada. La mediana y el modo no se prestan al
tipo de tratamiento algebraico estudiado para la Χ.
• En las distribuciones simétricas coinciden la media aritmética, la mediana y el modo.
• La media aritmética puede calcularse partiendo de los datos no clasificados, de datos
Unpabimodal

ordenados de una distribución de frecuencias o conociendo simplemente


ΣXi y el total de términos N.
• Para calcular la mediana los datos deben estar ordenados o formando una distribución de
frecuencia.
• El modo puede localizarse fácilmente partiendo de la distribución de frecuencias.

(1523) - Introducción a la Estadística - Página Nº 21


• Cuando los intervalos son desiguales generalmente la distribución es asimétrica hacia la
derecha por lo que debe esperarse que el valor de Χ resulte mayor que el que se obtiene con
los datos sin agrupar. La mediana puede determinarse aún partiendo de una distribución de
frecuencias con intervalos de clase desiguales. En cuanto al modo puede localizarse bastante
bien con intervalos de clase desiguales si el grupo modal y los dos intervalos adyacentes son
de la misma amplitud. En caso contrario la exactitud podría ser limitada.
• La presencia de intervalos abiertos en una distribución de frecuencias afecta el cálculo de la
media aritmética ya que no pueden localizarse los puntos medios. Esto no afecta para nada la
determinación de la mediana ni el cálculo del modo.
• En general la media aritmética es la medida preferida para representar la tendencia central a
causa de las propiedades deseables que posee. Permite su empleo en análisis estadístico
más avanzado. Se demostró que la suma de los desvíos con
• respecto a la media es cero y la suma de las desviaciones elevadas al cuadrado es mínima.
En contraste, las desviaciones y las desviaciones al cuadrado con respecto a la mediana
tienen solo aplicaciones limitadas.
• La media aritmética es la más estable y la más confiable. Si tomáramos muestras repetidas
de una población dada, la media generalmente mostraría una menor fluctuación que la
mediana o el modo. La media generalmente proporciona una mejor estimación del parámetro
correspondiente de la población.
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 22


SELECCIÓN DE LA MEDIDA APROPIADA

Cuando se trata de caracterizar una distribución de frecuencias el estadístico deberá decidir acerca
de cuál elegir.
La medida de tendencia central a usarse dependerá:
• De la naturaleza de la distribución de los datos
• Del concepto de tendencia central que se desee para un fin determinado.
Si la distribución es simétrica (o aproximadamente) pueden usarse casi indistintamente las tres
medidas.
Si una serie es asimétrica es preferible usar la mediana o el modo ya que la media no es, a menudo,
un valor típico.
La tendencia central de un conjunto de datos con valores extremos se describe mejor con la
mediana. También es útil esta medida cuando se sospecha heterogeneidad.
Algunas distribuciones simplemente no manifiestan en forma significativa tendencia central por lo
que no resulta apropiado calcular ninguna de las medidas mencionadas. Esto se verifica generalmente
en distribuciones multimodales.
Cuando el número de observaciones es muy reducido no es apropiado el cálculo de medidas de
tendencia central.

Resumiendo tenemos el siguiente cuadro para calcula las medidaas de tendencia central
para datos agrupados:

Media Aritmética Mediana: valor de la variable que Modo: Valor más frecuente
divide en dos partes iguales la
distribución

n  f2
 − Fi −1 
n
M o = Li + ( • c)
∑ xi . fi M e = Li +  2 •c f1 + f 2
x=
i =1  fi 
 
n  
Li: Límite inferior del intervalo Li: Límite inferior del intervalo
Para datos agrupados y no mediana modal
agrupados F i-1:frecuencia acumulada del f2: frecuencia absoluta del
intervalo anterior del intervalo intervalo posterior al intervalo
mediana modal
fi: frecuencia absoluta del f1: frecuencia absoluta del
intervalo mediana intervalo anterior al intervalo
c: amplitud del intervalo modal
c: amplitud del intervalo
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 23


MEDIDAS DE DISPERSION

Las medidas de centralización contribuyen para la descripción de un conjunto de datos pero para
interpretar con más detalle los mismos debemos conocer su dispersión en relación a nuestra medida de
tendencia central. Anteriormente se señaló la existencia de variabilidad en los conjuntos de datos
recolectados. La media aritmética, la mediana y el modo son valores de la variable que definen la
posición central pero no proporcionan ninguna información respecto de la variabilidad del conjunto de
datos al cual representan. Sin embargo, la variabilidad es una característica muy importante en una
distribución de frecuencias puesto que la medida de tendencia central tiene escaso valor en sí mismo a
menos que se conozca el grado de variabilidad de la distribución que representa. Ya sea que se estudie
una sola distribución de frecuencia o bien que se comparen distribuciones deberá añadirse siempre a la
medida de tendencia central la medida de variabilidad.
Consideremos por ejemplo las calificaciones obtenidas por dos alumnos durante un período
Alumno A: 6; 6; 5; 6; 7; 6; 6; 6
Alumno B: 10; 2; 5; 7; 6; 10; 1; 7

Los dos alumnos A y B obtienen 6 de promedio sin embargo, han obtenido calificaciones muy
diferentes pues mientras el alumno A consiguió una regularidad el alumno B tuvo sus calificaciones
dispersas entre valores extremos. Esta evidencia muestra la necesidad de introducir alguna medida que
posibilite apreciar la propiedad con la que los valores centrales caracterizan al conjunto del que
provienen.

Las medidas de dispersión o variabilidad más usadas son:


• Rango
• Variancia
• Desviación estándar
• Rango intercuartilar
• Desviación semintercuartilar

Rango

También llamada ancho o recorrido o amplitud. Es una medida de cálculo sencillo de la


variabilidad. Consiste en calcular la diferencia entre el mayor y el menor valor de la serie.
R = XM - Xm
R = Rango
XM = Valor máximo
Xm = Valor mínimo
No se puede utilizar cuando se dispone de datos agrupados en intervalos de clase puesto que no se
puede identificar el mínimo y el máximo de la distribución.-
Es evidente que depende sólo de los valores extremos por lo que está muy afectada por cualquier
Unpabimodal

cambio brusco que se produzca en ellos.


De acuerdo al ejemplo anterior
Para el alumno A: el rango = 7 – 5 = 2
Para el alumno B: el rango = 10 – 1 = 9

(1523) - Introducción a la Estadística - Página Nº 24


Ventajas

• Es fácil de calcular
• No necesita conocimiento de la estadística para su interpretación
• Es una medida poco precisa pero eficaz de variabilidad

Desventajas

• Refleja únicamente los valores extremos, ignorando la información intermedia


• No es aconsejable para muestras grandes pues puede conducir a error.

Desvío estándar o típico

Se la emplea como medida de dispersión de los valores individuales alrededor de la media


aritmética y es la de uso más frecuente como medida de variabilidad.

Se la define como la raíz cuadrada de la suma de los cuadrados de los desvíos con
respecto a la media aritmética dividida por el número de observaciones. Representa la mayor
o menor dispersión de los datos obtenidos alrededor de la media aritmética.

∑ (X − X ) fi
N
2
i N
1
σ= 1

N
=
N
∑X
1
i
2
fi − X 2

Cálculo del desvío estándar

1.- Para datos agrupados en tablas simples

Volvemos a retomar el ejemplo


Número de días que han faltado por enfermedad los empleados de un hotel en
año anterior. 2
Nº de días fi Xifi Xi fi
(1) (2) (3)= 4=(3)(1)
(1)x(2)
3 3 9 27
4 3 12 48
5 1 5 25
6 3 18 108
7 1 7 49
8 4 32 256
10 1 10 100
13 2 26 338
14 1 14 196
15 1 15 225
Unpabimodal

Total 20 148 1372

Fuente: Jefatura de personal del Hotel

σ =
∑X 2
i fi
−X
2
=
1372
− 7, 4 2 = 3,72 días
N 20
Χ = 7,4 días

(1523) - Introducción a la Estadística - Página Nº 25


2.- Para datos agrupados en intervalos

Se sigue el mismo criterio que cuando trabajamos con la media aritmética considerando cada punto
medio como representativo del intervalo

Ejemplo
Ingresos mensuales por turismo extranjero al país durante los últimos 4 años (en
millones de pesos)

Ingresos (en miles$) Nº de Punto medio Xifi Xi2fi


Intervalos (1) meses (xi) (3) (4)= (2)x(3) 5=(4)x(3)
fi (2)
3.3 – 19.1 26 11,2 291,2 3261,44
19.1 – 34,9 7 27,0 189 5103
34.9 – 50.7 6 42,8 256,8 10991,04
50.7 – 66.5 5 58,6 293 17169,8
66.5 – 82.3 2 74,4 148,8 11070,72
82.3 – 98.1 2 90,2 180,4 16272,08
Total 48 1359,2 63868,08
Fuente: INDEC

σ=
∑X 2
i fi
−X
2
=
63868,08
− 28,317 2 = $22,99
N 48
X = $28,317 millones

Consideraciones Generales

El desvío estándar es un valor importante pues da a conocer la dispersión de la variable alrededor


del valor medio. Un desvío estándar pequeño se traduce en una curva de distribución estrecha, mientras
que un desvío estándar grande nos informa que la distribución de frecuencias está muy dispersa en
torno a la media. El desvío estándar sintetiza la información respecto de la variabilidad de cada
distribución dando a conocer numéricamente la fluctuación que presentan las frecuencias.
El desvío estándar por proceder del cálculo de las diferencias con respecto a la media aritmética
elevados al cuadrado es un valor no negativo.

Ventajas

• Se calcula fácilmente
• Se basa en todas las observaciones
• Es la medida menos afectada por las fluctuaciones muestrales
• Se emplea en relación con diversos métodos estadísticos
• Es uno de los factores que describe curvas importantes como por ejemplo la distribución
normal
Unpabimodal

Desventajas

• No suele ser fácilmente interpretado


• No puede calcularse el desvío estándar cuando no es posible calcular la media aritmética
por ser función de ésta.

(1523) - Introducción a la Estadística - Página Nº 26


Variancia

La variancia de un conjunto de observaciones es igual a la suma de los cuadrados de


los desvíos entre cada valor de la variable y la media aritmética de los mismos divididos por
el número de observaciones.

∑ (X i − X ) × f i = N ∑ X i2 f i − X 2
N N
1 2 1
σ2 =
N i =1 i =1

Como se puede observar el desvío estándar es la raíz cuadrada de la variancia por lo que esta
última se calcula de acuerdo a lo señalado en los ejemplos anteriores sin aplicar la raíz.
Para el ejemplo días de ausencia de los empleados de un hotel
σ = 13,8384 días
2 2

y para el ejemplo de los ingresos por turismo


σ = 575,5201 pesos
2 2

Propiedades de la variancia

• La variancia es una cantidad no negativa cualquiera sea la distribución, es decir


σ2 ≥0
• La variancia de una constante es cero, es decir,
N

∑ (K − K )
1
σ2 = 2
≈0
N i =1

Ventajas

• Para su cálculo se tienen en cuenta todos los valores de la distribución.

Desventajas

• Cuando no es posible calcular la media aritmética no podrá obtenerse la variancia por ser
función de ésta.
• No viene expresada en las mismas unidades que los datos dado que las desviaciones se
elevan al cuadrado.
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 27


MEDIDA DE DISPERSION RELATIVA

Coeficiente de variación

El coeficiente de variación es un número abstracto que expresa la dispersión relativa de una variable
en un conjunto de datos.
Esta medida es de utilidad cuando se desea comparar dos conjuntos de datos que difieren en
relación a su media, al desvío estándar o a ambas. También resulta útil en aquellos casos en que ambos
conjuntos están expresados en diferentes unidades de medida.
Se calcula de la siguiente manera: C.V. = σ / X . Se lo puede también multiplicar por 100 y obtener
el porciento.
Su utilidad es que informa el si el conjunto de datos observados es homogéneo o herotegéneo. Si
calculamos el coeficiente de variación y ese valor es menor o igual a 0,10 decimos que el conjunto es
homogéneo.
σ
CV = ; CV ≤ 0,10 distribución homogénea
x

En el ejemplo de los días de ausencia de los empleados de un hotel

σ 3,72
CV = = = 0,50
x 7,4

Como CV = 0,50, valor mayor que 0,10, podemos decir que los días de ausencia
de los empleados de ese hotel se comporta de manera heterogénea o no
homogénea. La media aritmética puede no ser representativa del conjunto de
datos.

El coeficiente de variación también posibilita la comparación de dos series que estén o no


expresadas en las mismas unidades de medida.
Supongamos que en otro hotel de la misma cadena que la del ejemplo, se hace el mismo estudio y
da como resultado
3,5
X = 6,5 días σ = 3,5 CV = = 0,54
6,5
Podemos hacer un cuadro

Desvío estándar Media aritmética Coeficiente


variación

Hotel 1 3,72 días 7,4 días 0,5

Hotel 2 3,5 días 6,5 días 0,54

Si observamos la variación absoluta (σ, desviación estándar) el σ es menor en el hotel 2, ahora si


Unpabimodal

relacionamos cada desvío estándar con su media aritmética y calculamos los respectivos coeficientes de
variación vemos que el hotel 1 tiene un coeficiente de variación menor. Podemos concluir que si bien en
los dos hoteles las ausencias por enfermedad en un año de los empleados se comportan de manera
heterogénea es más parejo el comportamiento en el hotel 2 ya que tiene el menor coeficiente de
variación.
También podríamos comparar

(1523) - Introducción a la Estadística - Página Nº 28


Desvío estándar Media aritmética Coeficiente
variación

Ausencias por 3,72 7,4 0,5


enfermedad
empleados hotel

Ingresos
mensuales por 22,99 millones $28,317 millones 0,81
turismo extranjero

Podemos decir que se comporta de manera más homogénea las ausencias de los
empleados del hotel que los ingresos mensuales por turismo ya que su coeficiente de variación
es menor.
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 29


RESUMEN

Resumiendo para el cálculo de las medidas de dispersión

Rango o Rango Variancia: Desvío estándar Coeficiente


recorrido. intercuartílico de variación
σ
XM – Xm Q 3 – Q1 CV =
∑ (X ) ∑ (X )
n n
2 x
− X • fi
2
i i − X • fi
XM. mayor Q3 Tercer cuartil σ2 = 1
σ= 1 CV ≤ 0,10
valor que N N distribución
n
toma la homogénea
∑X • fi X i2 fi
2
Q1 Primer cuartil
∑ N −X
2
variable i
2 =
= 1
−X
Xm: menor N
valor que
toma la
variable

2
Cuando se trabaja con muestras en la fórmula de la variancia y el desvío (S y S)
hay que dividir por (n-1) y quedaría

(x )2
− x fi x i2 f i − n x
2
S = ∑ i
n −1
= ∑ n −1

Percentiles y Cuartiles

El término percentil deriva de porciento por lo tanto cada percentil indica el porcentaje de
observaciones del conjunto que se encuentra por debajo de este valor de variable. El décimo percentil
será el valor de variable que acumula hasta él el 10% de las observaciones. El vigésimo quinto percentil
será el valor de variable que acumula hasta él el 25% de las observaciones. La mediana es el percentil
50.
Al 25º percentil se le da el nombre de primer cuartil. Los cuartiles o cuartilos dividen a la distribución
en cuatro partes. El segundo cuartil coincide con la mediana.
Se puede también dividir a la distribución en deciles o quintiles de acuerdo al número de partes que
se consideren en la misma. No debe olvidarse que cualquiera de estos indicadores se refiere a valores
de variable que acumulan hasta ellos un determinado porcentaje de la distribución. En realidad se trata
de medidas de posición de la distribución pero no de medidas de tendencia central. Su cálculo puede
realizarse de la misma manera explicada para la mediana pero atendiendo a los porcentajes de la
distribución que le corresponde. A modo de ejemplo se explica el cálculo del primer cuartil.

Cálculo del primer cuartil

Para calcular el primer cuartil (Q1) se procederá tomando los dos ejemplos anteriores.
Unpabimodal

1.- Para datos agrupados en tablas de frecuencias simples

a) Se divide el número de observaciones por cuatro (N/4).


b) Se busca en la columna de frecuencias acumuladas el número obtenido en a).

(1523) - Introducción a la Estadística - Página Nº 30


c) Identificado el valor de la frecuencia acumulada resultante se observa a qué valor de variable
corresponde. Dicho valor de variable es el primer cuartil.

Si retomamos el ejemplo:
Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior.

Nº de días fi Fi
(1) (2) (3)
3 3 3
4 3 6
5 1 7
6 3 10
7 1 11
8 4 15
10 1 16
13 2 18
14 1 19
15 1 20
Total 20

Fuente: Jefatura de personal del Hotel


a) hacemos N/4 = 20 / 4 = 5
b) 5 está contenido en la columna (3) en Fi = 6
c) a 6 le corresponde el valor de variable 4. Por consiguiente Q1 = 4
El 25% de los empleados de ese hotel faltaron hasta 4 días por enfermedad el
año anterior
Para calcular el tercer cuartil
a) hacemos 3N/4 =3x 20 / 4 = 60/4 = 15
b) 15 está contenido en la columna (3) en Fi = 15
a 15 le corresponde el valor de variable 8. Por consiguiente Q3 = 8
El 75% de los empleados de ese Hotel faltaron hasta 8 días por enfermedad el
año anterior.

2.- Para datos agrupados en intervalos

d) se divide el número de observaciones por cuatro (N/4)


e) se busca en la columna de frecuencia acumulada el valor obtenido en a)
f) identificado el valor de la frecuencia acumulada se observa a qué intervalo corresponde el
valor resultante. Para hallar el verdadero valor del cuartil se procede a calcularlo con la
fórmula utilizada para el cálculo de la mediana.
 N  
  4 − Fi −1  
Q1 = Li +    • C
 fi 
 
 
Unpabimodal

Siendo:
Li: Límite inferior del intervalo en el que cae el primer cuartil
Fi -1: Frecuencia acumulada del intervalo anterior al del primer cuartil
fi : Frecuencia absoluta del intervalo del primer cuartil

(1523) - Introducción a la Estadística - Página Nº 31


C = Amplitud del intervalo

Retomamos el ejemplo
Ingresos mensuales por turismo extranjero al país durante los últimos 4 años (en
miles de pesos)
Ingresos (en millones Nº Fi
$) de meses
Intervalos fi
3.3 – 19.1 26 26
19.1 – 34,9 7 33
34.9 – 50.7 6 39
50.7 – 66.5 5 44
66.5 – 82.3 2 46
82.3 – 98.1 2 48
Total 48

Fuente: INDEC
 N  
  − Fi −1  
Q1 = Li +    • C
4
 fi 
 
 

N/4 = 48/4 = 12 El primer cuartil se encuentra en el intervalo (3,3 – 19,1)

 12 − 0    12 
Q1 = 3,3 +   • 15,8 = 3,3 +  • 15,8  = 3,3 + 7,29 = 10,59
  26    26 

El valor del primer cuartil es $10,59 millones


Es decir que el 25% los ingresos por turismo extranjero en los últimos cuatro
años en el país fue de $10.590.000 o menos.

Intervalo intercuartilar

Es aquel que se encuentra comprendido entre el primero y el tercer cuartil. Su utilidad es que
proporciona los límites entre los que se encuentra comprendido el 50% de las observaciones centrales,
es decir aquellas que no están tan afectadas por las fluctuaciones extremas de la distribución. El
intervalo intercuartilar es una medida de la dispersión de la distribución. Si los valores están
concentrados alrededor de la mediana, la distancia entre el primero y el tercer cuartil asumirá un valor
pequeño.

Ejemplo 14
Días de permanencia de turistas en dos hoteles diferentes de un centro de Esquí.

Hotel 1 Hotel 2
Mna. = 10 Mna. = 10
Q1 = 9 Q1 = 3
Unpabimodal

Q3 = 11 Q3 = 18
Si bien en ambos hoteles la mediana es 10 es posible observar que en el hotel 1
el 50% de los turistas tienen un tiempo de permanencia próximo a ella, en cambio
en el hotel 2 la dispersión es grande.

(1523) - Introducción a la Estadística - Página Nº 32


Sin la información adicional proporcionada por el intervalo intercuartilar la información obtenida por
el cálculo de la mediana quedaría incompleta.

Desviación semi intercuartilar

Es la mitad del intervalo cuartilar

Q3 − Q1
Q=
2
Cuando la distribución es simétrica el 50% de las observaciones se encuentra comprendido en el
intervalo Mna. ± Q.
Si una distribución es asimétrica, como frecuentemente sucede se puede tomar ± Q alrededor de la
mediana y, aunque no se llegara a Q1 y Q3 es esperable incluir aproximadamente el 50% de los valores.
Sin embargo si la asimetría es grande no sería posible realizar esta interpretación, razón por la cual su
utilización carecería de sentido.

Centil o percentil valor de la variable que Cuartiles (Q) , deciles ( D) y quintiles (K): casos
una vez ordenados los datos, deja a su particulares de centiles
izquierda un determinado porcentaje de la
población  n 
h•
Variable agrupada − Fi −1 
C h = Li +  100 •c
 fi 
h=orden del percentil 
 
n= total observaciones
Dividimos por 100 porque calculamos percentil, si
calculáramos quintil dividiríamos por 4, quintil por
5
Li: Límite inferior del intervalo centil
F i-1:frecuencia acumulada del intervalo anterior
del intervalo centil
fi: frecuencia absoluta del intervalo centil
c: amplitud del intervalo

Asimetría o Sesgo

Una distribución simétrica es aquella en que el intervalo central tiene la frecuencia máxima y que las
correspondientes a izquierda y derecha del intervalo central de la distribución son iguales. Si la
distribución de frecuencias se muestra mediante una gráfica, ya sea histograma o polígono, al trazar una
vertical por el punto medio de la clase central la gráfica queda partida en dos mitades idénticas,
coincidiendo media, mediana y modo.
Si las frecuencias a ambos lados de la clase central no coinciden la distribución no es simétrica y los
valores que miden la tendencia central no coinciden.
Cuando la distribución no es simétrica el polígono de frecuencia se tornará asimétrico hacia el lado
derecho del eje X (asimetría positiva) o hacia el lado izquierdo (asimetría).
Unpabimodal

Coeficiente de asimetría

∑ (X )3
N
Se calcula: −X
i
i =1

Asimetría = N
σ3

(1523) - Introducción a la Estadística - Página Nº 33


El coeficiente puede arrojar los siguientes resultados:
• igual a 0 indicaría que la distribución es simétrica
• menor que 0 indicaría una asimetría negativa
• mayor que 0 indicaría una simetría positiva

Curtosis

Los rasgos característicos de una distribución son descriptos por las medidas de tendencia central,
de variabilidad y asimetría. Para completar las mencionadas resulta de interés saber como es el polígono
de frecuencias en cuanto a su grado de empinamiento. Este concepto estadístico se denomina Curtosis.
La fórmula de medida de la Curtosis es
N

∑ (X
i =1
i −X )4
Curtosis = N
σ4
Si el resultado:

• es igual a 0 la curva se denomina mesocúrtica o de puntiagudez normal


• si es menor que 0 se dice platicúrtica o sea con menor puntiagudez
• si es mayor que cero es leptocúrtica o sea con mayor puntiagudez

Referencias:

Leptocúrtica
Mesocúrtica
Platicúrtica
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 34


Coeficiente de asimetría Coeficiente de apuntalamiento o Kurtosis

∑(x − x) • f
n
3

( )
i i
1
•  n
4

a3 =
xi − x 
1

σ 3
n 1
a4 =  4 • 1 
Coeficiente asimetría σ n 
 
de Pearson
x−Mo  
kp =
σ
es igual a 0 la curva se denomina mesocúrtica o de
igual a 0 indicaría que la distribución es puntiagudez normal
simétrica si es menor que 0 se dice platicúrtica o sea con
menor que 0 indicaría una asimetría negativa menor puntiagudez
mayor que 0 indicaría una simetría positiva si es mayor que cero es leptocúrtica o sea con
mayor puntiagudez
Unpabimodal

(1523) - Introducción a la Estadística - Página Nº 35


OBSERVACIONES

Estadísticos muestrales

En este capítulo hemos supuesto que se trabajaba con poblaciones sin embargo en la mayor parte
de los estudios estadísticos se cuenta con distribuciones muestrales. Si bien no es posible aún
fundamentar matemáticamente se puede afirmar que la media muestral es un buen estimador de la
media poblacional.
Por otra parte el mejor estimador de la variancia poblacional es:
n

∑ (x
i =1
i − x )2
S2 =
n −1

Fórmula ésta que se utiliza cuando se trabaja con muestras.


El desvío estándar será entonces:

∑ (x
i =1
i − x )2
S=
n −1
Ingreso de los ocupados en el sector público y en el sector privado en caleta olivia – junio 2007

OCUPADOS EN EL OCUPADOS EN EL
SECTOR PUBLICO SECTOR PRIVADO

Media 2022,88 1983,8542

Mediana 1800,00 1700,0000

Moda 1500,00 2000,00

Desvío estándar 1289,45 1394,32

Mínimo ,00 ,00

Máximo 12000,00 8500,00

Suma 410645,00 585237,00

Coeficiente de variación
0,637
0,703

Percentile 25
1500,0000 1000,00
s

50 1800,0000 1700,00

75 2300,0000 2500,00
Fuente Encuesta Sociodemográfica Ocupacional Caleta Olivia – Junio 2007
Unpabimodal

Tarea
Trata de interpretar y analizar estos datos. Una vez terminado el análisis te
invitamos a participar en foro de discusión, para realizar tus aportes y consultas
sobre los temas tratados en este módulo.

(1523) - Introducción a la Estadística - Página Nº 36

También podría gustarte