Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad _1
Módulo 3
2010
Índice
Ventajas ................................................................................................................................................................................................... 27
Desventajas ............................................................................................................................................................................................. 27
RESUMEN ................................................................................................................................................................................................................. 30
OBSERVACIONES ................................................................................................................................................................................................... 36
Estadísticos muestrales ....................................................................................................................................................................................... 36
Unpabimodal
Análisis de variables cuantitativas. Medidas de tendencia central: media aritmética, mediana y modo.
Interpretación y usos. Otras medidas de posición. Cuartilos, deciles y percentiles. Medidas de dispersión:
rango, desviación semi- intercuartilar, desviación media cuadrática, variancia, desvío estándar.
Características y usos de los mismos. Coeficiente de variación Asimetría. Curtosis.
Objetivos de aprendizaje
Lectura Complementaria
Robert Jonson – Patricia Kuby – Estadística Elemental lo esencial – Capítulos 1
y 2 – Internacional Thomson editores.
Presentación Tabular
En general se presentan mediante tablas de dos columnas. En la primera se colocan los valores que
toma la variable en estudio o se agrupa la misma en intervalos teniendo en cuenta lo explicado en el
Módulo I. Y en la segunda el número de observaciones correspondientes a cada una de ellas. Puede
agregarse una tercer columna con la frecuencia relativa de cada uno de los valores de la variable y una
cuarta columna con las frecuencias acumuladas.
Representación Gráfica
Este gráfico se emplea para representar la distribución de una variable cuantitativa discreta. Sobre
una misma recta (la horizontal) se dispone los valores de la variable. En cada uno de ellos se traza un
segmento perpendicular al eje horizontal cuya longitud corresponde a la frecuencia de ese valor de
variable de acuerdo a la escala elegida. Este gráfico resulta muy similar en sus características al gráfico
de barras por lo que en muchas ocasiones se utiliza equivocadamente este último. Es importante hacer
notar que el gráfico de barras representa una distribución con variable cualitativa y el de bastones se
refiere a una distribución con variable discreta en la que el segmento muestra la frecuencia exactamente
en el valor de variable al que está referido.
Ejemplo
Tomamos como ejemplo el Módulo 1 (página 11) que está referido al :
Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior.
Nº de días fi Fi
3 3 3
4 3 6
5 1 7
6 3 10
7 1 11
8 4 15
10 1 16
13 2 18
14 1 19
15 1 20
Total 20
FRECUENCIA ABSOLUTA
Cantidad
3
0
3 4 5 6 7 8 10 13 14 15
Números de Días
Histograma
Se utilizan para distribuciones con variable cuantitativa continua o para distribuciones de variable
cuantitativa discreta con un gran número de datos que haya justificado su agrupación en intervalos. El
objetivo del histograma es mostrar el tipo de distribución de la que se trata por lo tanto siempre resulta
útil atender al efecto visual de este gráfico. Como los bloques representan el área de un rectángulo cuya
base es la amplitud del intervalo y cuya altura es la frecuencia correspondiente a esta clase, a efectos de
no distorsionar la impresión visual, se recomienda que los intervalos tengan la misma amplitud. En el
histograma se representa sobre el eje de abscisas (X) los límites de las clases. Dichos límites deben
corresponder al límite inferior de cada uno de ellas. Por este motivo los bloques resultan adyacentes.
Sobre el eje de ordenadas (Y) se representa los valores de frecuencia absoluta de la distribución.
Es importante resaltar que cuando los intervalos no son de la misma amplitud la altura de cada
bloque no se construye proporcional a las frecuencias sino que debe atenderse a la siguiente relación:
Es decir, que debería calcularse la altura de cada rectángulo considerando aquellos intervalos que
han mostrado variación en su correspondiente amplitud.
Ejemplo
Defunciones de menores de 1 año según edad en meses de los fallecidos
Provincia de Santa fe, Año 1991
1a5 694
6 a 11 395
Para menos de 1 mes la altura será 861/1 = 861
De 1 a 5 meses la altura será 694/5= 139
De 6 a 11 meses la altura será 395/6 = 66
Cuando se desea comparar dos o más distribuciones de frecuencia resulta de utilidad el uso de un
gráfico de áreas denominado polígono de frecuencias. En el polígono de frecuencias se considera que
las observaciones correspondientes a un intervalo están concentradas en el punto medio del mismo En
éste se marca el valor de frecuencia que le corresponde con un punto. Posteriormente se unen todos los
puntos obtenidos mediante segmentos, recordando que la frecuencia en el punto medio de un imaginario
intervalo anterior al primero considerado y posterior al último corresponde a cero, con lo que quedaría
encerrada el área con la curva resultante. Si bien a partir del histograma es posible marcando los puntos
medios en el lado superior de cada bloque llegar al polígono de frecuencia no es necesario la realización
de ambos puesto que el área que comprenden es equivalente.
Ejemplo
Tomamos como ejemplo el ejercicio de las páginas 13 y 14 del Módulo I.
Ingreso mensuales por turismo extranjero al país durante los últimos 4 años (en
millones de pesos)
Fuente INDEC
INGRESOS POR M ES
28
26
24
22
20
Cantidad de Meses
18
16
14
12
10
8
6
4
2
0
3.3 – 19.1 19.1 – 34,9 34.9 – 50.7 50.7 – 66.5 66.5 – 82.3 82.3 – 98.1
Hasta este momento, para describir un conjunto de datos, se han empleado las tablas y los gráficos
que son muy útiles para tener en forma rápida una visión general del comportamiento de los valores que
asume la variable. Incluso, en el caso de variables cualitativas los cuadros y gráficos son suficientes para
dar una descripción completa. Para describir el comportamiento de las variables cuantitativas se requiere
una mayor precisión. Es necesario que esa descripción trascienda lo visual y lo subjetivo. Para
solucionar esta situación planteada surgen las medidas numéricas. La precisión deseable al describir el
conjunto de datos numéricos se refiere a dos aspectos que pueden traducirse en dos preguntas:
• ¿Existe algún valor de la variable que represente a la mayoría de los valores del conjunto de
datos?
• ¿Qué tan separados están, entre sí, los diferentes valores que asume la variable?
La primera pregunta se refiere a las llamadas medidas de tendencia central y la segunda, a las
llamadas medidas de dispersión.
Algo que causa confusión en la interpretación de un conjunto de datos y quizás lleva a considerar a
la Estadística como un arte y no como una ciencia es la ambigüedad en el uso del término promedio.
Este se emplea comúnmente como sinónimo de normal. Es por ello que los estadísticos en general lo
han eliminado de su vocabulario técnico y se refieren en cambio a medidas de tendencia central. Estas
medidas de tendencia central se las define como un indicador de localización central empleado en la
descripción de las distribuciones de frecuencia. Una distribución de frecuencia representa una
organización de datos pero no nos permite por sí misma establecer proposiciones cuantitativas, ya sea
describiendo la distribución o comparando dos o más distribuciones.
Las medidas de tendencia central también llamadas de posición sirven para representar con un solo
número todo un conjunto de datos. Son valores representativos de una serie de datos y como tienden a
caer en la parte central de una serie es que llevan el nombre de medidas de tendencia central.
Entre las más usadas se encuentran:
a) Media aritmética b) Mediana c) Modo
La selección de cada una de ellas como medidas resumen presenta ventajas y desventajas que
dependen del tipo de datos y del propósito que se persiga al calcular dichas medidas.
Media Aritmética
En este caso la media aritmética se obtiene sumando los valores observados y dividiéndolos por el
Unpabimodal
X =
X 1 + X 2 + ......... + X i + ....... + X N
; o más brevemente =
∑X i
donde
N N
∑ es el signo sumatoria que quiere decir que debemos sumar a través de todos los valores
que toma la var iable X , en este ejemplo los días de estadía de los pasajeros en esa cabaña
Ejemplo
La estadía de los pasajeros que se alojaron en una cabaña fueron:
6, 9, 5, 9, 10, 8, 7
6 + 9 + 5 + 10 + 8 + 7
X = = 7,7 días
7
∑X i fi
X 1 f1 + X 2 f 2 + ......... + X N f N
X = i =1
=
N N
donde fi son las frecuencias absolutas de cada uno de los valores de la variable.
Retomamos el ejemplo
Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior.
Nº de días fi Xifi
(1) (2) (3)=
(1)x(2)
3 3 9
4 3 12
5 1 5
6 3 18
7 1 7
8 4 32
10 1 10
13 2 26
14 1 14
15 1 15
Total 20 148
∑x f i i = 148 Es el total de días que faltaron por enfermedad los empleados del hotel
N = 20 úmero de empleados del hotel
Unpabimodal
X=
∑x f i i
=
148
= 7,4
N 20
Los empleados del Hotel se ausentaron en promedio 7,4 días por enfermedad el
año anterior
Cuando los datos se presentan en una distribución de frecuencias, todos los valores que caen
dentro de un intervalo de clase determinado se consideran coincidentes con el punto medio de la clase.
En este caso los valores x1, x2, ,xi..., representan el punto medio del 1º, 2º, ....... i-ésimo intervalo y
f1, f2, fi, las frecuencias correspondientes a cada intervalo. La fórmula para el cálculo de la media
aritmética será:
N
∑X i fi
X = i =1
=
1
( X 1 f1 + X 2 f 2 + ......... + X N f N )
N N
Fuente INDEC
Punto medio del primer intervalo
LI + LS
x1 = donde
2
LI = Límite inf erior int ervalo
LS = Límite sup erior int ervalo
Lo que hemos hecho es un promedio entre el Límite Inferior y el límite sup erior
3,3 + 19,1
= 11,2 (1)
2
Otra forma de calcular el punto medio es hacer la amplitud del intervalo (Límite Superior menos
Límite inferior) dividido 2 y ese valor sumárselo a cada límite inferior
Para el primer intervalo
1359,2 millones de pesos es el total de ingresos por turismo en los últimos 4 años.
∑X
1 1
X = i fi = 1359,2 = $28,317
N 48
El ingreso promedio por turismo en los últimos cuatro años ha sido de $28.317.000
A veces, los valores x1, x2, etc se asocian con ciertos pesos, w1, w2, ....., que dependen del
significado o importancia asignados a los valores. En tal caso, la media aritmética se calcula en la
siguiente forma: N
∑W
i =1
i ∑W
i =1
i
Por ejemplo
Una persona viaja desde Caleta Olivia a Capital Federal y carga nafta en Caleta
Olivia a $2,56 el litro, en Puerto Madryn a $2,60 el litro, en Viedma a $3,55 el litro
y en Olavarría a $3,60 el litro. ¿Se puede decir que en promedio esa persona
pagó $ 3,08 el litro de nafta, que resulta de sumar 2,56+2,6+3,55+3,6 y dividir
por 4?
Esto se podría hacer si hubiese cargado los mismos litros de nafta en todo el
viaje. Qué pasaría si esa persona carga 50 litros en Caleta Olivia, 45 litros en
Puerto Madryn, 40 litros en Viedma y 42 litros en Olavarría. La cantidad de
dinero que esa persona gastó en el viaje fue
(2,56x 40) + (2,60x 45) + (3,55x40) + (3,60 x42) = 128+117+142+151,2 = $538,20
La cantidad de litros de nafta cargada (Σwi) = 50 + 45 + 40 + 42 = 187
Por lo que el costo promedio de gasto en nafta fue $2,88 que resulta de dividir
538,20
Unpabimodal
≈ 2,88
187
• Una propiedad muy importante de la media aritmética es que la suma algebraica de los
desvíos de los valores con respecto a la media aritmética es igual a 0. En otras palabras
∑ d i = ∑ (X i − X ) = 0
N N
i =1 i =1
∑ (X − X ) = ∑ X i − ∑ X = NX − NX = 0
N N N
i
i =1 i =1 i =1
de lo que se deduce
N
∑X
i =1
i = NX
En el ejemplo Nº 1 (página 8) La estadía de los pasajeros que se alojaron los pasajeros de una
cabaña fueron:
6, 9, 5, 9, 10, 8, 7
N
f i = ∑ (X i − X )f i = 0
N N
∑d
i =1
i
i =1
• Otra propiedad importante de la media aritmética es que la suma de los cuadrados de los
desvíos con respecto a la media aritmética es un mínimo. Esto significa que la sumatoria de
los cuadrados de las desviaciones con respecto a la media aritmética es menor que la suma
de los cuadrados de las desviaciones con respecto a cualquier otro valor distinto de la media
aritmética. Si llamamos con Σ ri a la suma de los desvíos con respecto a otro valor que no sea
la media aritmética se tiene que:
N N
Para datos no agrupados
∑ d i2 < ∑ ri2
i =1 i =1
Unpabimodal
N N
Para datos agrupados
∑d
i =1
i
2
f i < ∑ ri 2 f
i =1
Esta propiedad nos permite definir a la media como la medida de tendencia central que hace mínima
la suma de los cuadrados de las desviaciones en torno a ella. El método de localización de la media
∑d =(5 − 7,7)
2
i
2
+ (6 − 7,7)2 + (7 − 7,7)2 + (8 − 7,7)2 + (9 − 7,7)2 + (10− 7,7)2 =
− 2,72 + (−1,7)2 + (−0,7)2 + 0,32 +1,32 + 2,32 = 7,29 + 2,89+ 0,49+ 0,09+1,69+ 5,29 = 17,74
Vamos ahora a restarle cualquier constante
ri = (xi – 8)
∑r i
2
= (5 − 8) 2 + (6 − 8) 2 + (7 − 8) 2 + (8 − 8) 2 + (9 − 8) 2 + (10 − 8) 2 =
( −3) 2 + (−2) 2 + (−1) 2 + (0) 2 + 12 + 2 2 = 9 + 4 + 1 + 1 + 4 = 19
donde ∑d i
2
= 17,74 p ∑r i
2
= 19
• Otra propiedad es que la media aritmética es mayor que el menor valor observado y menor
que el mayor valor observado.
Si designamos a X1 como el menor valor y XN como el mayor se cumple que:
X1 < Χ < XN
En el caso que todos los valores sean iguales la media aritmética coincide con dicho valor.
En nuestro ejemplo nunca el promedio de estadía en la cabaña podría haber dado como resultado
un valor menor que 5 ni mayor que 10.
• Si una constante C, se suma a cada puntuación de un grupo cuya media es Χ, las
puntuaciones resultantes tendrían una media igual a Χ+C
N N N
∑ (X + C)=
1 1 1 1
N i =1
i
N
∑X
i =1
i +
N
∑C =
i =1
X +
N
× NC = X + C
• Cuando una distribución tiene uno o los dos extremos indeterminados (alguno de los
intervalos abiertos, sin límite superior o límite inferior) no hay indicación acerca del valor que
deba elegirse como representativo para el cálculo de la media. En nuestro ejemplo si el primer
intervalo hubiese sido “menos de 3,3” y/o el último hubiese sido “82,3 o más”. Si
supusiéramos que el grupo indeterminado tiene el mismo punto medio que el que le precede,
Unpabimodal
esto daría generalmente un valor muy bajo; ello se debe a que la razón por la cual se suele
dejar una clase abierta es porque contiene unas pocas frecuencias dispersas entre valores
distintos. Para resolver estos problemas se deberá disponer de los valores de esta clase
abierta y a partir de ellos obtener un valor promedio.
Ejemplo
Pasajeros de un hotel según edad por tipo de habitación en un hotel de la ciudad
de Santa Fe – 1er. Semestre 2008.
X =
(18 × 1232 ) + (36 × 726 ) + (39 × 426 ) + (23 × 558 ) = 26 ,4
2942
Traten de sumar los cuatro porcentajes y dividir por 4 para ver el valor
promedio que da y comparar con el contenido.
Ejemplo
Promedio de permanencia de los pasajeros de un hotel según su lugar de
residencia en Villa 25 de Mayo – Año 2007
Unpabimodal
1
X = (7,8 × 6748) + (5,6 × 4561) + (11,2 × 2103) + (14,3 × 64) = 7,6
13476
Como puede observarse no se debe sumar los cuatro promedios y dividir por cuatro. NO
DEBEN HACER PROMEDIO DE PROMEDIOS salvo que el N sea el mismo para todas las
categorías. En este ejemplo si el número de pasajeros hubiera sido el mismo para cada lugar de
residencia habitual de los mismos.
• Como se dijo en las ventajas que en su cálculo se tienen en cuenta todos los valores de la
distribución tiene el inconveniente de que si ésta posee valores extremos, excepcionalmente
raros y poco significativos, éstos producen una distorsión sobre el valor de la media alterando
su representatividad. Esto se agrava cuando los datos con que se cuentan son poco
numerosos. Por ejemplo, si se quiere hallar la talla media de los de alumnos de una clase y
hay un alumno que mide 2,10 m., ese valor alterará considerablemente la talla media de la
clase.
• No siempre es posible calcular la media aritmética. Por ejemplo cuando los datos de la
distribución se encuentran agrupados en intervalos y existe una clase abierta.
En los casos en que resulta inconveniente el uso de la media aritmética, para solucionar el problema
se utilizan otras medidas de tendencia central que se desarrollarán a continuación.
Unpabimodal
Cálculo de la mediana
Si tenemos los datos sin agrupar, debemos seguir los siguientes pasos
• Ordenamos los datos de menor a mayor
• Determinamos el lugar que ocupa la mediana. Si n (tamaño de la muestra) ó N (tamaño de
la población) es impar, la mediana coincide con el valor central y su lugar se determina
haciendo N + 1.
2
En el ejemplo Nº 1 (página 8) La estadía de los pasajeros que se alojaron en una cabaña fueron:
6, 9, 5, 9, 10, 8, 7
Ordenamos de menor a mayor: 5 6 7 8 9 9 10
N +1 7 +1
Como N es impar para encontrar el lugar de la mediana hacemos = =4
2 2
Es decir, que aquel valor que ocupe el lugar 4 es el valor de la Mediana. En nuestro ejemplo
el lugar 4 lo ocupa el valor 8, ese es el valor de la mediana
Ejemplo
Las tallas
tallas en cm. de 12 patinadoras de un equipo de patinaje artístico son:
169, 150, 162, 155, 157, 153, 164, 153, 170, 167, 172, 167,
Ordenamos: 150, 153, 153, 155, 157, 162, 164, 167, 167, 169, 170,
172
Al ser par el número de datos el lugar de la mediana es 12/2 = 6. Hacemos una
semisuma entre el 6º y el 7º.
Se halla la media aritmética de las dos 162 + 164 = 163 cm.
2
Es decir Mna =163 cm
Unpabimodal
Volvemos al ejemplo
Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior
Nº de días fi Fi
(1) (2)
3 3 3
4 3 6
5 1 7
6 3 10
7 1 11
8 4 15
10 1 16
13 2 18
14 1 19
15 1 20
Total 20
Para el caso en que tengamos los datos agrupados la mediana se obtiene por interpolación.
Unpabimodal
N
− Fi −1
2
Mna. =Li + × C
donde: fi
Li: Límite inferior del intervalo donde está ubicada la mediana
Fi-1: Frecuencia acumulada del intervalo anterior al correspondiente a la mediana
fi : Frecuencia absoluta del intervalo donde se encuentra la mediana
C: Amplitud del intervalo donde cae la mediana
Volvemos al ejemplo
Ingresos mensuales por turismo extranjero al país durante los últimos 4 años (en
miles de pesos)
N
2 − Fi −1
Mna. = Li + × C = 3,3 + (24 − 0) × 15,8 = 3,3 + 24 × 15,8
26
fi 26
= 3,3 + 14,58 = 17,88
Unpabimodal
Mna= 17,88 significa que el 50 % de los meses ingresaron por turismo extranjero
menos de 17.880.
• No se ve afectada por los valores extremos por lo que la podemos utilizar en aquellos casos
en que no es utilizable la media aritmética.
• Es fácil de comprender.
• Se la puede calcular cuando utilizamos intervalos abiertos y cuando trabajamos con
intervalos desiguales.
Desventajas
Modo
El modo puede no existir, son aquellas distribuciones en las que no hay ningún valor que se repita
más que otro. Otras veces, existiendo puede no ser único. Hay distribuciones con dos modos, se llaman
bimodales o varios modos denominadas multimodales.
Si tenemos datos sin agrupar, se lo encuentra fácilmente observando cual es el valor que más se
repite.
En el ejemplo Nº 1 (página 8) La estadía de los pasajeros que se alojaron en una cabaña fueron:
6, 9, 5, 9, 10, 8, 7
El Modo o Moda es 9 ya que es el valor que tiene la mayor frecuencia
En este caso nos fijamos qué valor de la variable corresponde a la mayor frecuencia absoluta.
Unpabimodal
Nº de días fi Fi
(1) (2)
3 3 3
4 3 6
5 1 7
6 3 10
7 1 11
8 4 15
10 1 16
13 2 18
14 1 19
15 1 20
Total 20
Existen varios métodos para calcular el modo. Cada método puede darnos un valor diferente, pero
aproximado, para un mismo conjunto de datos.
f2
• Un método es el que se calcula con la siguiente fórmula: (a) Modo = Li + × C
f
2 + f 1
Donde:
Li: Límite inferior del intervalo modal (el cual se determina localizando la frecuencia absoluta mayor)
f1: Frecuencia absoluta del intervalo anterior al intervalo modal
f2: Frecuencia absoluta del intervalo posterior al intervalo modal
C: Amplitud del intervalo
Ingresos (en Nº Fi
millones $) de meses
Intervalos fi
3.3 – 19.1 26 26
19.1 – 34,9 7 33
Unpabimodal
34.9 – 50.7 6 39
50.7 – 66.5 5 44
66.5 – 82.3 2 46
82.3 – 98.1 2 48
Total 48
Fuente: INDEC
Ventajas
Desventajas
N N ∑X i
∑ ∑
1 i =1
X = Xi; X i = X • N; N=
N i =1 i =1
X
Además usando ponderaciones adecuadas puede promediarse una serie de medias aritméticas
para obtener la media aritmética de la distribución combinada. La mediana y el modo no se prestan al
tipo de tratamiento algebraico estudiado para la Χ.
• En las distribuciones simétricas coinciden la media aritmética, la mediana y el modo.
• La media aritmética puede calcularse partiendo de los datos no clasificados, de datos
Unpabimodal
Cuando se trata de caracterizar una distribución de frecuencias el estadístico deberá decidir acerca
de cuál elegir.
La medida de tendencia central a usarse dependerá:
• De la naturaleza de la distribución de los datos
• Del concepto de tendencia central que se desee para un fin determinado.
Si la distribución es simétrica (o aproximadamente) pueden usarse casi indistintamente las tres
medidas.
Si una serie es asimétrica es preferible usar la mediana o el modo ya que la media no es, a menudo,
un valor típico.
La tendencia central de un conjunto de datos con valores extremos se describe mejor con la
mediana. También es útil esta medida cuando se sospecha heterogeneidad.
Algunas distribuciones simplemente no manifiestan en forma significativa tendencia central por lo
que no resulta apropiado calcular ninguna de las medidas mencionadas. Esto se verifica generalmente
en distribuciones multimodales.
Cuando el número de observaciones es muy reducido no es apropiado el cálculo de medidas de
tendencia central.
Resumiendo tenemos el siguiente cuadro para calcula las medidaas de tendencia central
para datos agrupados:
Media Aritmética Mediana: valor de la variable que Modo: Valor más frecuente
divide en dos partes iguales la
distribución
n f2
− Fi −1
n
M o = Li + ( • c)
∑ xi . fi M e = Li + 2 •c f1 + f 2
x=
i =1 fi
n
Li: Límite inferior del intervalo Li: Límite inferior del intervalo
Para datos agrupados y no mediana modal
agrupados F i-1:frecuencia acumulada del f2: frecuencia absoluta del
intervalo anterior del intervalo intervalo posterior al intervalo
mediana modal
fi: frecuencia absoluta del f1: frecuencia absoluta del
intervalo mediana intervalo anterior al intervalo
c: amplitud del intervalo modal
c: amplitud del intervalo
Unpabimodal
Las medidas de centralización contribuyen para la descripción de un conjunto de datos pero para
interpretar con más detalle los mismos debemos conocer su dispersión en relación a nuestra medida de
tendencia central. Anteriormente se señaló la existencia de variabilidad en los conjuntos de datos
recolectados. La media aritmética, la mediana y el modo son valores de la variable que definen la
posición central pero no proporcionan ninguna información respecto de la variabilidad del conjunto de
datos al cual representan. Sin embargo, la variabilidad es una característica muy importante en una
distribución de frecuencias puesto que la medida de tendencia central tiene escaso valor en sí mismo a
menos que se conozca el grado de variabilidad de la distribución que representa. Ya sea que se estudie
una sola distribución de frecuencia o bien que se comparen distribuciones deberá añadirse siempre a la
medida de tendencia central la medida de variabilidad.
Consideremos por ejemplo las calificaciones obtenidas por dos alumnos durante un período
Alumno A: 6; 6; 5; 6; 7; 6; 6; 6
Alumno B: 10; 2; 5; 7; 6; 10; 1; 7
Los dos alumnos A y B obtienen 6 de promedio sin embargo, han obtenido calificaciones muy
diferentes pues mientras el alumno A consiguió una regularidad el alumno B tuvo sus calificaciones
dispersas entre valores extremos. Esta evidencia muestra la necesidad de introducir alguna medida que
posibilite apreciar la propiedad con la que los valores centrales caracterizan al conjunto del que
provienen.
Rango
• Es fácil de calcular
• No necesita conocimiento de la estadística para su interpretación
• Es una medida poco precisa pero eficaz de variabilidad
Desventajas
Se la define como la raíz cuadrada de la suma de los cuadrados de los desvíos con
respecto a la media aritmética dividida por el número de observaciones. Representa la mayor
o menor dispersión de los datos obtenidos alrededor de la media aritmética.
∑ (X − X ) fi
N
2
i N
1
σ= 1
N
=
N
∑X
1
i
2
fi − X 2
σ =
∑X 2
i fi
−X
2
=
1372
− 7, 4 2 = 3,72 días
N 20
Χ = 7,4 días
Se sigue el mismo criterio que cuando trabajamos con la media aritmética considerando cada punto
medio como representativo del intervalo
Ejemplo
Ingresos mensuales por turismo extranjero al país durante los últimos 4 años (en
millones de pesos)
σ=
∑X 2
i fi
−X
2
=
63868,08
− 28,317 2 = $22,99
N 48
X = $28,317 millones
Consideraciones Generales
Ventajas
• Se calcula fácilmente
• Se basa en todas las observaciones
• Es la medida menos afectada por las fluctuaciones muestrales
• Se emplea en relación con diversos métodos estadísticos
• Es uno de los factores que describe curvas importantes como por ejemplo la distribución
normal
Unpabimodal
Desventajas
∑ (X i − X ) × f i = N ∑ X i2 f i − X 2
N N
1 2 1
σ2 =
N i =1 i =1
Como se puede observar el desvío estándar es la raíz cuadrada de la variancia por lo que esta
última se calcula de acuerdo a lo señalado en los ejemplos anteriores sin aplicar la raíz.
Para el ejemplo días de ausencia de los empleados de un hotel
σ = 13,8384 días
2 2
Propiedades de la variancia
∑ (K − K )
1
σ2 = 2
≈0
N i =1
Ventajas
Desventajas
• Cuando no es posible calcular la media aritmética no podrá obtenerse la variancia por ser
función de ésta.
• No viene expresada en las mismas unidades que los datos dado que las desviaciones se
elevan al cuadrado.
Unpabimodal
Coeficiente de variación
El coeficiente de variación es un número abstracto que expresa la dispersión relativa de una variable
en un conjunto de datos.
Esta medida es de utilidad cuando se desea comparar dos conjuntos de datos que difieren en
relación a su media, al desvío estándar o a ambas. También resulta útil en aquellos casos en que ambos
conjuntos están expresados en diferentes unidades de medida.
Se calcula de la siguiente manera: C.V. = σ / X . Se lo puede también multiplicar por 100 y obtener
el porciento.
Su utilidad es que informa el si el conjunto de datos observados es homogéneo o herotegéneo. Si
calculamos el coeficiente de variación y ese valor es menor o igual a 0,10 decimos que el conjunto es
homogéneo.
σ
CV = ; CV ≤ 0,10 distribución homogénea
x
σ 3,72
CV = = = 0,50
x 7,4
Como CV = 0,50, valor mayor que 0,10, podemos decir que los días de ausencia
de los empleados de ese hotel se comporta de manera heterogénea o no
homogénea. La media aritmética puede no ser representativa del conjunto de
datos.
relacionamos cada desvío estándar con su media aritmética y calculamos los respectivos coeficientes de
variación vemos que el hotel 1 tiene un coeficiente de variación menor. Podemos concluir que si bien en
los dos hoteles las ausencias por enfermedad en un año de los empleados se comportan de manera
heterogénea es más parejo el comportamiento en el hotel 2 ya que tiene el menor coeficiente de
variación.
También podríamos comparar
Ingresos
mensuales por 22,99 millones $28,317 millones 0,81
turismo extranjero
Podemos decir que se comporta de manera más homogénea las ausencias de los
empleados del hotel que los ingresos mensuales por turismo ya que su coeficiente de variación
es menor.
Unpabimodal
2
Cuando se trabaja con muestras en la fórmula de la variancia y el desvío (S y S)
hay que dividir por (n-1) y quedaría
(x )2
− x fi x i2 f i − n x
2
S = ∑ i
n −1
= ∑ n −1
Percentiles y Cuartiles
El término percentil deriva de porciento por lo tanto cada percentil indica el porcentaje de
observaciones del conjunto que se encuentra por debajo de este valor de variable. El décimo percentil
será el valor de variable que acumula hasta él el 10% de las observaciones. El vigésimo quinto percentil
será el valor de variable que acumula hasta él el 25% de las observaciones. La mediana es el percentil
50.
Al 25º percentil se le da el nombre de primer cuartil. Los cuartiles o cuartilos dividen a la distribución
en cuatro partes. El segundo cuartil coincide con la mediana.
Se puede también dividir a la distribución en deciles o quintiles de acuerdo al número de partes que
se consideren en la misma. No debe olvidarse que cualquiera de estos indicadores se refiere a valores
de variable que acumulan hasta ellos un determinado porcentaje de la distribución. En realidad se trata
de medidas de posición de la distribución pero no de medidas de tendencia central. Su cálculo puede
realizarse de la misma manera explicada para la mediana pero atendiendo a los porcentajes de la
distribución que le corresponde. A modo de ejemplo se explica el cálculo del primer cuartil.
Para calcular el primer cuartil (Q1) se procederá tomando los dos ejemplos anteriores.
Unpabimodal
Si retomamos el ejemplo:
Número de días que han faltado por enfermedad los empleados de un hotel en el
año anterior.
Nº de días fi Fi
(1) (2) (3)
3 3 3
4 3 6
5 1 7
6 3 10
7 1 11
8 4 15
10 1 16
13 2 18
14 1 19
15 1 20
Total 20
Siendo:
Li: Límite inferior del intervalo en el que cae el primer cuartil
Fi -1: Frecuencia acumulada del intervalo anterior al del primer cuartil
fi : Frecuencia absoluta del intervalo del primer cuartil
Retomamos el ejemplo
Ingresos mensuales por turismo extranjero al país durante los últimos 4 años (en
miles de pesos)
Ingresos (en millones Nº Fi
$) de meses
Intervalos fi
3.3 – 19.1 26 26
19.1 – 34,9 7 33
34.9 – 50.7 6 39
50.7 – 66.5 5 44
66.5 – 82.3 2 46
82.3 – 98.1 2 48
Total 48
Fuente: INDEC
N
− Fi −1
Q1 = Li + • C
4
fi
12 − 0 12
Q1 = 3,3 + • 15,8 = 3,3 + • 15,8 = 3,3 + 7,29 = 10,59
26 26
Intervalo intercuartilar
Es aquel que se encuentra comprendido entre el primero y el tercer cuartil. Su utilidad es que
proporciona los límites entre los que se encuentra comprendido el 50% de las observaciones centrales,
es decir aquellas que no están tan afectadas por las fluctuaciones extremas de la distribución. El
intervalo intercuartilar es una medida de la dispersión de la distribución. Si los valores están
concentrados alrededor de la mediana, la distancia entre el primero y el tercer cuartil asumirá un valor
pequeño.
Ejemplo 14
Días de permanencia de turistas en dos hoteles diferentes de un centro de Esquí.
Hotel 1 Hotel 2
Mna. = 10 Mna. = 10
Q1 = 9 Q1 = 3
Unpabimodal
Q3 = 11 Q3 = 18
Si bien en ambos hoteles la mediana es 10 es posible observar que en el hotel 1
el 50% de los turistas tienen un tiempo de permanencia próximo a ella, en cambio
en el hotel 2 la dispersión es grande.
Q3 − Q1
Q=
2
Cuando la distribución es simétrica el 50% de las observaciones se encuentra comprendido en el
intervalo Mna. ± Q.
Si una distribución es asimétrica, como frecuentemente sucede se puede tomar ± Q alrededor de la
mediana y, aunque no se llegara a Q1 y Q3 es esperable incluir aproximadamente el 50% de los valores.
Sin embargo si la asimetría es grande no sería posible realizar esta interpretación, razón por la cual su
utilización carecería de sentido.
Centil o percentil valor de la variable que Cuartiles (Q) , deciles ( D) y quintiles (K): casos
una vez ordenados los datos, deja a su particulares de centiles
izquierda un determinado porcentaje de la
población n
h•
Variable agrupada − Fi −1
C h = Li + 100 •c
fi
h=orden del percentil
n= total observaciones
Dividimos por 100 porque calculamos percentil, si
calculáramos quintil dividiríamos por 4, quintil por
5
Li: Límite inferior del intervalo centil
F i-1:frecuencia acumulada del intervalo anterior
del intervalo centil
fi: frecuencia absoluta del intervalo centil
c: amplitud del intervalo
Asimetría o Sesgo
Una distribución simétrica es aquella en que el intervalo central tiene la frecuencia máxima y que las
correspondientes a izquierda y derecha del intervalo central de la distribución son iguales. Si la
distribución de frecuencias se muestra mediante una gráfica, ya sea histograma o polígono, al trazar una
vertical por el punto medio de la clase central la gráfica queda partida en dos mitades idénticas,
coincidiendo media, mediana y modo.
Si las frecuencias a ambos lados de la clase central no coinciden la distribución no es simétrica y los
valores que miden la tendencia central no coinciden.
Cuando la distribución no es simétrica el polígono de frecuencia se tornará asimétrico hacia el lado
derecho del eje X (asimetría positiva) o hacia el lado izquierdo (asimetría).
Unpabimodal
Coeficiente de asimetría
∑ (X )3
N
Se calcula: −X
i
i =1
Asimetría = N
σ3
Curtosis
Los rasgos característicos de una distribución son descriptos por las medidas de tendencia central,
de variabilidad y asimetría. Para completar las mencionadas resulta de interés saber como es el polígono
de frecuencias en cuanto a su grado de empinamiento. Este concepto estadístico se denomina Curtosis.
La fórmula de medida de la Curtosis es
N
∑ (X
i =1
i −X )4
Curtosis = N
σ4
Si el resultado:
Referencias:
Leptocúrtica
Mesocúrtica
Platicúrtica
Unpabimodal
∑(x − x) • f
n
3
( )
i i
1
• n
4
∑
a3 =
xi − x
1
σ 3
n 1
a4 = 4 • 1
Coeficiente asimetría σ n
de Pearson
x−Mo
kp =
σ
es igual a 0 la curva se denomina mesocúrtica o de
igual a 0 indicaría que la distribución es puntiagudez normal
simétrica si es menor que 0 se dice platicúrtica o sea con
menor que 0 indicaría una asimetría negativa menor puntiagudez
mayor que 0 indicaría una simetría positiva si es mayor que cero es leptocúrtica o sea con
mayor puntiagudez
Unpabimodal
Estadísticos muestrales
En este capítulo hemos supuesto que se trabajaba con poblaciones sin embargo en la mayor parte
de los estudios estadísticos se cuenta con distribuciones muestrales. Si bien no es posible aún
fundamentar matemáticamente se puede afirmar que la media muestral es un buen estimador de la
media poblacional.
Por otra parte el mejor estimador de la variancia poblacional es:
n
∑ (x
i =1
i − x )2
S2 =
n −1
∑ (x
i =1
i − x )2
S=
n −1
Ingreso de los ocupados en el sector público y en el sector privado en caleta olivia – junio 2007
OCUPADOS EN EL OCUPADOS EN EL
SECTOR PUBLICO SECTOR PRIVADO
Coeficiente de variación
0,637
0,703
Percentile 25
1500,0000 1000,00
s
50 1800,0000 1700,00
75 2300,0000 2500,00
Fuente Encuesta Sociodemográfica Ocupacional Caleta Olivia – Junio 2007
Unpabimodal
Tarea
Trata de interpretar y analizar estos datos. Una vez terminado el análisis te
invitamos a participar en foro de discusión, para realizar tus aportes y consultas
sobre los temas tratados en este módulo.