Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Y
PROBABILIDAD
GUÍA 2
Medidas Estadísticas
NOTA: Esta guía sólo presenta lo esencial del contenido sobre medidas estadísticas y no sustituye la amplia ayuda que puedes encontrar en la bibliografía suministrada al inicio del curso.
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
DESCRIPCIONES ESTADÍSTICAS
Hasta ahora hemos visto que, según la pertinencia y la necesidad del caso, podemos agregar valor al análisis de datos (en una variable)
cuando realizamos algunas de las siguientes acciones:
• Ordenando los datos de forma ascendente o descendente.
• Presentando los datos sin agrupar en una Tabla de Distribución de Frecuencias.
• Cuando la variable toma muchos valores diferentes es necesario agrupar los datos en clases y construir una Tabla de Distribución
de Frecuencias.
• Graficando los resultados de las Tablas de Distribución de Frecuencias.
Sin embargo, podemos resumir aún más la información utilizando las Descripciones Estadísticas, las cuales, son medidas que resumen,
en un valor, características del conjunto de datos. De estas características, hay dos que son muy importantes:
2
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
3
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
Además de comprender el significado de cada una de estas medidas, vamos a aprender a calcularlas: manualmente, con la calculadora
y con la computadora, utilizando Excel y/o los programas estadísticos (por ejemplo: SPSS, MINITAB, otros)
1. MEDIDAS DE TENDENCIA CENTRAL: Coloquialmente, la información que dan es hacia qué valor se amontona la
mayoría de los datos, cuál es el valor que puede ser el representante del colectivo. El objetivo de estas medidas es
describir de alguna manera el centro o mitad de un conjunto de datos, buscar un valor que sea representativo de
todos los valores incluidos en el conjunto de datos.
1.1. MEDIA ARITMÉTICA: Es la más conocida y la más usada de las medidas de tendencia central. También se le llama
promedio, pero en Estadística existen otros tipos de promedio, por lo cual se considera conveniente
denominarla “media aritmética” Se define como la suma de los valores dividida entre el número de valores.
x=
∑x i
Donde: ∑x i = suma de todos los valores observados
n n = tamaño de la muestra
Media Aritmética de una POBLACIÓN: La media aritmética se calcula de igual forma, solo que N= número de
elementos de la población, y se designa de la siguiente forma:
µ=
∑x Donde:
∑x i = suma de todos los valores de la población
N = tamaño de la población
1.2. MEDIANA ( ~
x ó Me ): Es el valor que divide los datos en dos partes iguales. El 50% de los datos son menores
a la mediana, y el otro 50% son mayores que ella. Si ordenamos los datos en forma ascendente o descendente, la
mediana se define como:
4
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
• El valor que se encuentra en el centro del conjunto de datos cuando el total de elementos es un número
impar. Ejemplo: Si el tamaño de la muestra es 75, la mediana será el valor que ocupe la posición Nº 38 en
los datos ordenados.
• El promedio de los dos valores centrales cuando el total de elementos es par. Ejemplo: si n= 600 la
mediana será el promedio de los dos datos que ocupan la posición 300 y 301.
Ventajas de la mediana:
• Los valores extremos no afectan a la Mediana como afectan a la Media.
• Es fácil de entender y se puede calcular tanto en datos no agrupados como agrupados.
• Podemos usar la mediana cuando los datos son expresiones cualitativas y los podemos expresar en escala
ordinal (rangos) Ejemplo: Deficiente, Regular, Bueno, Eficiente, Excelente. Cuál será la Mediana?
• Cuando el rango es muy grande (es decir, existen grandes variaciones en los datos) la mediana puede ser
mucho más significativa que la media aritmética.
Desventajas de la mediana:
• Se deben ordenar los datos antes de calcular la Mediana.
• Algunos procedimientos estadísticos que utilizan la Mediana son más complejos que aquellos que usan la
Media
• No se puede calcular cuando los datos están agrupados y la clase medianal cae en un intervalo abierto.
1.3. MODA (Mo): Es el valor que más se repite en un conjunto de datos. Es decir aquel valor que posee la máxima
frecuencia. Puede existir más de una moda. Cuando hay dos modas se habla de Distribución Bimodal.
Ventajas de la moda:
• Se puede usar para datos cualitativos y cuantitativos
• No se ve afectada por los valores extremos
• Se puede usar cuando existen clases de extremo abierto.
Desventajas de la moda:
• No siempre existe. Nos podemos encontrar conjuntos de datos que no repiten valores, por lo que no existe
valor modal.
• Si existe, no siempre es única, por lo que resulta difícil de interpretar y comparar.
• Puede darse el caso de que un solo elemento no representativo se repita y sea el valor con mayor
frecuencia. Es por ello que la moda rara vez se usa. Se recomienda que cuando se vaya a usar la Moda como
medida de tendencia central se calcule la Moda para Datos Agrupados.
1.4. MEDIA PONDERADA (O PROMEDIO PONDERADO): Es la media aritmética que toma en cuenta la importancia que
tiene cada valor en relación con el total. Por lo tanto para calcular esta medida, es preciso asignarle un “peso”
(importancia relativa) que se le llamará factor de ponderación “p”. Entonces se multiplica cada valor por el
factor de ponderación asignado, se suman estos resultados y se divide por la suma de todos los factores de
ponderación. Las fórmulas para la media ponderada muestral y poblacional son idénticas, como sigue:
∑( p. xi) ∑ ( p .x i )
xp= µ =
∑p p
∑ p
1.5. MEDIA GEOMÉTRICA: Se utiliza para medir la tasa promedio de cambio o de crecimiento de alguna variable
G = x1 ∗ x2 ∗ x3 ∗⋅ ⋅ ⋅ ⋅ xn
1.6. MEDIA ARMÓNICA: Es la recíproca de la media aritmética de los recíprocos de los datos. Se utiliza
frecuentemente para promediar velocidades, donde las distancias para cada velocidad son las mismas
5
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
1 n
x = =
H
1 1
∑ x
∑ x
n
1.7. FRACTILES: Son los llamados estadísticos de orden. Exceptuando la mediana (que es un fractil también porque
divide en dos al conjunto de datos), no son medidas de tendencia central sino de posición. Estos son: Mediana,
Cuartiles, Quintiles, Deciles, percentiles.
3 3
Tercer Cuartil -> i= * n = * 12 = 9
4 4
Como “i” resultó ser un número entero (9) entonces el tercer cuartil será el promedio entre la novena y
la décima (10º) posición: Tercer Cuartil = (2450+2550)/2 = 2500
6 6
Sexto Decil -> i= * n = * 12 = 7,2
10 10
Como “i” resultó no ser un número entero (7,2) entonces el sexto decil será el dato que ocupe la octava
(8º) posición: Sexto Decil=2440
85 85
85º Percentil -> i= *n = * 12 = 10,2
100 100
Como “i” resultó no ser un número entero (10,2) entonces el 85ºpercentil será el dato que ocupe la
décimo primera (11º) posición. 85º percentil = 2630
7
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
2.1. Alcance o Recorrido: Es la diferencia entre el mayor valor y el menor valor de los datos:
R=x −x
máx mín
2.2. Alcance Interfractil: Es la diferencia entre los valores de dos fractiles. Ejemplos:
Estas medidas están referidas a la media aritmética porque informan "qué tan desviados están los datos respecto a la
media aritmética. Para ello necesitamos definir lo que es Desviación Estadística.
D.M =
∑| x − µ |
i
Ventaja: Se usan todos los datos para calcularla. Es fácil de interpretar.
Desventaja: La desviación media no se presta a transformaciones algebraicas debido a que los signos son
ajustados en su definición.
2.4. Varianza: Se define como el promedio de las desviaciones al cuadrado. Al elevar al cuadrado cada una de las
desviaciones se logra que todas ellas sean positivas y a su vez, que las desviaciones más grandes tengan más
peso
σ 2
=
∑ (x i − µ )2
Para una población:
s 2
=
∑ (x i − x) 2
Para una Muestra:
n −1
8
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
• Observa que para una muestra ya no sería “n” sino “n-1” porque en la práctica se ha encontrado que el
valor resultante da una mejor estimación de la varianza de la población total. Para grandes valores de “N”
no existe mucha diferencia entre una u otra.
• La varianza se puede usar para comparar dos o más conjuntos de datos.
• DESVENTAJA: Para un solo conjunto de datos las unidades de la Varianza no son manejables o fáciles de
interpretar, ya que son unidades elevadas al cuadrado (dolares2,por ejemplo). Por esa razón debemos
recurrir a la raíz cuadrada de la varianza que se define como DESVIACIÓN ESTANDAR o DESVIACIÓN TÍPICA.
2.5. Desviación Estándar: Se define como la raíz cuadrada de la Varianza. La Desviación estándar nos permite calcular
con un buen grado de precisión dónde están localizados los valores de una distribución de frecuencias con
respecto a la media.
σ = ∑ (x i − µ )2
Para una población:
s=
∑ (x i − x) 2
=
Para una Muestra:
n −1
2.6. Resultado Estándar: Da el número de desviaciones estándar que una observación en particular ocupa por debajo
o por encima de la media.
xi − µ
z=
σ
Ejemplo: Queremos saber a cuantas desviaciones se encuentra de la media el dato xi = 0,12
0,12 − 0,166
Re 0 ,12 = = −0,79
0,058
Este dato está a menos de una desviación estándar por debajo de la media.
2.7. Coeficiente de Variación: Sirve para comparar la media con la Desviación Estandar. Es una medida relativa muy
útil para comparar el grado de variación en conjuntos de datos que posean diferentes medias.
Desviación Estandar
Coeficiente de Variación= *100
Media
• Al menos el 75% de los datos caen dentro de ± 2 σ (más o menos dos desviaciones estándar) a
partir de la media
• Al menos el 89% de los datos caen dentro ± 3 σ a partir de la media
9
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
2.9. Regla Práctica: Cuando la curva de frecuencias es simétrica, con forma de campana y “n” es grande, se puede
decir que:
• Aproximadamente el 68% de los valores de la población cae dentro de ± 1σ a partir de la
media.
• Aproximadamente el 95% de los datos caen dentro de ± 2 σ (más o menos dos desviaciones
estandar) a partir de la media
• Aproximadamente el 99% de los datos caen dentro ± 3 σ a partir de la media
MEDIDAS DE FORMA
media − mod a x − Mo
Asimetría= =
Desviaciónestándar s
10
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
2.11. CURTOSIS: Mide cuán puntiaguda es una distribución, en general, por referencia a la distribución normal.
• Leptocúrtica: Si tiene un pico alto.
• Platicúrtica: Si es aplastada.
• Mesocúrtica: Forma intermedia (como la distribución Normal)
EJERCICIO:. Como verás ya el ejercicio trae la respuesta. Pero tu tarea es hacerlo por tu cuenta,
manualmente, con Excel y con el Statgraphics, y comprobar que te da igual que acá. Halla las otras medidas
que no se piden acá.
11
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
3. CÓMO DETERMINAR LAS MEDIDAS ESTADÍSTICAS CUANDO SE NOS PRESENTAN LOS DATOS YA AGRUPADOS?
Cuando se tiene una distribución de frecuencias cuyos datos YA ESTÁN AGRUPADOS EN CLASES, como el caso que a
continuación se presenta, no se sabe el valor de cada observación, solo se sabe que cada dato se encuentra en una
clase determinada. ¿Cómo hacer para estimar las medidas estadísticas?
CASO: A continuación se presenta el consumo de gasolina que tuvo una muestra de 160 carros que tienen un
kilometraje de 1000 KM de recorrido
Lim inf - Lim sup frecuencia
13 - 19 12
19 - 25 35
25 - 31 40
31 - 37 48
37 - 43 15
43 - 49 10
3.1. MEDIA ARITMÉTICA CUANDO LOS DATOS YA NOS LOS DAN AGRUPADOS:
Solo se puede calcular una aproximación de la media, pues no tenemos el valor de cada uno de los 160 carros.
Asumiendo que el punto medio de cada clase (o marca de clase) representará a todos los valores contenidos en cada
una de las clases. Los pasos a seguir para calcular la media son:
• Se determina el punto medio de cada clase. Se redondean las cantidades, en caso de que no resulten cifras
cerradas.
• Se multiplica el punto medio de cada clase por la frecuencia correspondiente a dicha clase.
• Se suman todos los resultados de las multiplicaciones.
• Se divide el total de la suma entre el número total de observaciones (“n” o “N”, según el caso)
La media de una Muestra, para datos agrupados, se calcula:
x=
∑( f ∗.x m )
f = frecuencia de cada clase
Donde: i
n n = Tamaño de la muestra
x = Marca de cada clase
m
i
La media de una Población, para datos agrupados, se calcula igual, lo que cambia es la notación:
µ= ∑( f * x m )
12
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
En forma general se puede calcular la mediana para Datos agrupados utilizando la siguiente fórmula
Me = ~
x = Mediana
n L = LímiteInferiorde la clasemedianal
− Fantes i
Me = ~
x = Li + 2 *A donde: n = tamañode la muestra
f me F = FrecuenciaAbsoluta Acum.anteriora la clasemedianal
antes
f = frecuencia absoluta clase medianal
me
A = Amplitudde la clasemedianal
3.3. MODA CUANDO LOS DATOS YA NOS LOS DAN AGRUPADOS: Mo = Moda
L = LímiteInferiorde la clasemodal
i
f = frec.absol.clase modal
mo
13
A = Amplitudde la clasemodal
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
De la misma manera que se calcula la mediana para datos agrupados se ubican los fractiles:
1 3
4 n − Fantes 4 n − Fantes
Primer cuartil: Q = L Tercer Cuartil: Q = L *A
1 exacto + *A 3 exacto +
fQ inferior f Q3
inferior
1
:
8 2
10 n − Fantes 10 n − Fantes
Octavo Decil: D = L
8 exacto + *A Segundo Decil: D2 = Lexacto + *A
inferior f D8 inferior f D2
90 10
100n − Fantes 100 n − Fantes
+ Décimo percentil: P = L + *A
Noventa percentil: P = L *A 10 exacto
90 exacto
inferior f P90 inferior f P10
3.6. DESVIACIÓN ESTÁNDAR CUANDO LOS DATOS YA NOS LOS DAN AGRUPADOS:
Una Tabla nos facilita el cálculo manual. Pero también debes aprender a utilizar las herramientas tecnológicas.
CON LA CALCULADORA, CON EXCEL Y CON PAQUETES COMO EL SPSS Y EL STATGRAPHICS:
14
UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA ESTADÍSTICA Y PROBABILIDAD
PROFESORA ZORAIDA PÉREZ SÁCHEZ
DESCRIPCIOES ESTADÍSTICAS
aritmética
700-800 4
800-900 7
900-1000 8
1000-1100 10
1100-1200 12
1200-1300 17
1300-1400 13
1400-1500 10
1500-1600 9
1600-1700 7
1700-1800 2
1800-1900 1
Fuente: Adaptado del original Levin/Rubin 6º Ed. P.124
Revisión: 07/10/2015 15