Está en la página 1de 47

Estadística sumaria para describir las características del conjunto de

datos

Medidas de tendencia central


Se refieren al punto medio de una distribución. Se conocen también
como medidas de posición

Medidas de dispersión
Se refiere a la separación de los datos en una distribución, es decir, al
grado en que las observaciones se separan.
Las curvas que representan los datos de un
conjunto de datos pueden ser simétricas o
sesgadas

Curvas simétricas: Tienen un forma tal que una


línea vertical que pase por el punto más alto de
la curva dividirá su área en dos partes iguales.

Curvas sesgadas: Los valores de su distribución


de frecuencias se concentrar en el extremo
inferior o en superior de la escala de medición
del eje horizontal. Los valores no están
uniformemente distribuidos.
Sesgada a la derecha (positivamente sesgada)
debido a que va disminuyendo poco a poco hacia
el extremo derecho de la escala.

Sesgada a la izquierda (negativamente sesgada)


debido a que va disminuyendo poco a poco hacia
el extremo inferior de la escala.

Curtosis: Mide que tan puntiaguda es una curva


de distribución de frecuencias.
Para medir la simetría o sesgo de la curva se
utiliza el coeficiente de asimetría.

Coeficiente de Asimetría

CA= 3(X- Med) / S

Para cada variable, se explicara mas adelante


su concepto y significado.
1.Es simétrica si CA = 0

Media = Mediana = Moda

2.En asimetría sesgada a la derecha (+) si CA > 0

Media > Mediana > Moda

3.En asimetría sesgada a la izquierda (-) si CA< 0

Media < Mediana < Moda


LA MEDIA ARITMETICA

Cuando nos referimos al promedio de algo, estamos hablando de la media


aritmética.

Cálculo de la media a partir de datos no agrupados.

La media aritmética de la población (µ)

µ = ∑X/N

X: observaciones individuales
N: Total de observaciones de la población

La media aritmética de la muestra


_
X = ∑x/n

n: numero de observaciones de la muestra.


Para la serie:6, 6, 3, 4, 2, 5, 4, 1, 6, 3; calcular la media
aritmética de esta población no agrupada.

Observamos y calculamos:
N = 10
∑X = 40

Entonces :
µ = ∑X/N=40/10=4

Luego la media es: 4


Cálculo de la media a partir de datos agrupados.
La formula es :
__
X = ∑ (f Xi)
n
Donde:
f: frecuencia de las observaciones
Xi: Marca de clase (Punto medio de cada clase)
n: Numero de datos
Cálculo de la media a partir de datos agrupados.

 Calcular el punto medio de cada clase


 Redondear las cantidades
 Multiplicar cada punto medio por la frecuencia de
las observaciones
 Sumar todos los resultados
 Dividir la suma entre el número total de
observaciones
 Ventajas:
a) Concepto básico.
b) Fácil cálculo.
c) Unicidad.
d) Útil en cálculos estadísticos.

 Desventajas:
a) Sensible a valores extremos .
b) Calculo exhaustivo en un numero grande de
datos.
c) Cálculo imposible en datos que tienen clases de
limites abiertos.
LA MEDIA PONDERADA

Nos permite calcular un promedio que toma en


cuenta la importancia de cada valor con respecto
al total.

__ ∑(w )(X)
X w =______________
∑w

w: peso de cada observación.


Usarla siempre que se desee calcular el cambio
porcentual promedio en el tiempo para
algunas variables

Se usa para mostrar los efectos


multiplicativos en el tiempo de los cálculos de
interés compuesto y la inflación.
LA MEDIA GEOMETRICA

Nos permite conocer una tasa promedio de


cambio cuando trabajamos con cantidades que
cambian en cierto periodo.
____________
M.G. = = n √ X1 X2 ….. Xn
USOS de la Media Geométrica:

Usarla siempre que se desee calcular el cambio


porcentual promedio en el tiempo para algunas
variables

Se usa para mostrar los efectos multiplicativos


en el tiempo de los cálculos de interés
compuesto y la inflación.
n+1
Ubicación de la Mediana =
2

La Mediana es un valor único del conjunto de datos que


mide la observación central de dichos datos.

La mitad de los elementos están por arriba de ese punto y


la otra mitad está por debajo.
Calculo de la mediana a partir de datos no agrupados.

 Organizar los datos en orden descendente o ascendente

 Si el conjunto de datos contiene un número impar de


elementos, el del medio en el arreglo es la mediana

 Si hay un numero par de observaciones, la median es el


promedio de los elementos de en medio.

Med = (XN/2 + XN/2+1 )/2 )

(donde las variables son los datos de en medio en la serie


ordenada)
Para la serie :6, 6, 3, 4, 2, 5, 4, 1, 6, 3; encontrar la mediana:

Primero ordenaremos los datos de menor a mayor


1,2,3,3,4,4,5,6,6,6

Luego encontramos la ubicación aproximada de la mediana es 6 y


además:

Med = (4+4)/2 =4

El dato en la posición 6 es : 4

Luego: Mediana=4
La mediana para datos agrupados
.
n+1
– (Faa+1)
2
Mediana = ( ) C + L.I . m
f m

Donde:
n : Número de datos
Faa : Frecuencia acumulada antes de la clase mediana
fm : Frecuencia de la clase mediana
C : Ancho del intervalo de clase
L .I.m : Límite inferior del intervalo de la clase mediana
 Ventajas:

a) Inmune a los valores extremos


b) Es fácil de entender e interpretar
c) Es además una medida de posición

 Desventajas:

 El ordenamiento se vuelve complicado para un gran número de datos.

 Ciertos procedimientos estadísticos se vuelven más complejos que aquellos


que utilizan la media

 Al elegir un solo valor para representar una distribución la


incertidumbre puede aumentar
En datos no agrupados: La moda es el valor que más se
repite en el conjunto de datos.

En datos agrupados : La moda está localizada en la clase que


tiene la mayor frecuencia. La clase que contiene a la moda se
denomina clase modal
Formula para calcular la moda a partir de datos agrupados.

Moda = Li mo +( Δ1 )C
Δ1 +Δ2

L imo : Límite inferior de la clase modal

Δ 1:Diferencia de la Frecuencia de la clase modal y la frecuencia de la clase


inmediatamente menor que ella.

Δ 2:Diferencia de la Frecuencia de la clase modal menos la frecuencia de la clase


inmediatamente mayor que ella.

C: Ancho del intervalo de la clase modal.


Datos no agrupados:

Para la serie mostrada calcular la moda


6, 6, 3, 4, 2, 5, 4, 1, 6, 3

Ordenando de mayor a menor:


6, 6, 6, 5, 4, 4, 3, 3, 2, 1

Moda = 6

Pues se repite tres veces ( mas que los demás datos).


Distribuciones multimodales:

 Cuando se tiene dos o más elementos diferentes que se


repiten varias veces en un conjunto de datos. Distribución
bimodal. Si se tienen dos elementos

 Ventajas: Se puede usar para datos cualitativos como


cuantitativos. Los valores extremos no la afectan. Se puede
usar aun cuando una o mas clases sean de extremo abierto

 Desventaja: No se utiliza muy a menudo como la media y la


mediana. Muchas veces un conjunto no contiene valores que
se repiten una y otra vez. Cuando se tiene distribuciones
multimodales es difícil interpretar y compararlos.
 Su uso obedece a situaciones practicas en las cuales cada una
de ellas tiene más sentido.
 La distribución simétrica que solo contiene una moda siempre
tiene el mismo valor para la media, la median y la moda.
 En una distribución con sesgo positivo, la moda se encuentra en
el punto más alto de la distribución, la mediana esta a la
derecha y la media se encuentra todavía más a la derecha.
 En una distribución con sesgo negativo, la moda se encuentra
en el punto más alto de la distribución, la mediana esta a la
izquierda y la media se encuentra todavía más a la izquierda.
 Cuando la población esta sesgada negativa o positivamente, la
mediana suele ser la mejor medida de posición, debido a que
siempre está entre la moda y la media.
 Cada caso debe manejarse de manera independiente, de
acuerdo con la naturaleza del problema que se desea analizar.
En curvas de frecuencia unimodales que sean
poco asimétricas se cumple la siguiente
relación emperica

X – Mo = 3 (X – Md)

Mo = 3Md - 2X
 La media, la mediana y la moda sólo
nos revelan una parte de la información
que debemos conocer acerca de las
características de los datos.

 Para aumentar nuestro entendimiento


del patrón de comportamiento de los
datos, debemos medir también su
dispersión, separación o variabilidad.
¿Por qué es importante entender y medir la dispersión
de la distribución de datos?
 Nos proporciona información adicional que nos
permite juzgar la confiabilidad de nuestra medida de
tendencia central. Si los datos se encuentran muy
dispersos, la posición central es menos representativa
de los datos.
 Existen problemas características para datos muy
dispersos, por tanto debemos ser capaces de
reconocer esa dispersión amplia para abordar esos
problemas.
 Si no se desea tener una amplia dispersión con
respecto del centro de distribución, o esto presenta
riesgos inaceptables, necesitamos poder reconocerla
y evitar elegir distribuciones que tengan la dispersión
mas grande.
RANGO
Es la diferencia entre el más alto y el más pequeño
de los valores observados

Rango = Valor más grande – valor más pequeño

Es fácil encontrarlo pero su utilidad como medida


de dispersión es muy limitada, sólo toma los
valores extremos.

Las distribuciones de extremos abiertos no tienen


rango
RANGO INTERFRACTIL
Es una medida de dispersión entre dos fractiles de
una distribución de frecuencias, es decir, la
diferencia entre los valores de dos fractiles.

Los fractiles tienen nombres especiales,


dependiendo del numero de partes iguales en que
se dividen los datos.

Deciles: Los fractiles que los dividen en 10


partes.
Cuartiles: Dividen los datos en cuatro partes
Percentiles: Dividen los datos en 100 partes.
RANGO INTERCUARTIL

Es la diferencia entre los valores del primero y


tercer cuartiles

Rango intercuartil = Q3 – Q1

Los cuartiles son los valores más altos de cada


una de las cuatro partes en que se dividen los
datos. Cada una de las partes posee el 25% de
los datos.
La varianza
La desviación estándar

Son medidas de dispersión que


manejan la desviación promedio
respecto a alguna medida de
tendencia central.
VARIANZA DE LA POBLACION
Es simplemente la suma de los cuadrados de
las distancias entre la media y cada elemento
de la población dividida entre el numero de
observaciones

∑ (x - µ)² ∑x²
σ² = ---------------- = ------- - µ²
N N

σ²: desviación estándar de la población


DESVIACION ESTANDAR DE LA POBLACION
Es simplemente la raíz cuadrada de la varianza

__ ∑ (x - µ)² ∑x²
σ = √ σ² = √ ---------------- = √ ------- - µ²
N N

σ: desviación estándar de la población

En estadística sólo se considera la raíz cuadrad positiva.

La desviación estándar nos permite determinar, con un buen grado de


precisión, donde están localizados los valores de una distribución de
frecuencia con relación a la media.
Calculo de la varianza y la desviación estándar
a partir de datos agrupados.

∑ f (x - µ)² ∑ f x²
σ² = ------------ = ---------- - µ²
N N
∑f (x - µ)² ∑ f x²
σ = √ σ² = √ ------------
- - µ² = √ -------
N N

f: frecuencia de cada una de las clases


x: punto medio de cada clase
VARIANZA DE UNA MUESTRA

∑(x - x)² ∑ x² nx²


s² = ------------ = ------- - ----
n-1 n–1 n-1
Desviación Estándar de una muestra

_
∑ (x - x)² ∑ x²
s = √s² = √ -------- = √ ------ -nx²
n-1 n–1 n-1
COEFICIENTE DE VARIACION

Es una mediad de relativa de dispersión que


relaciona la desviación estándar y la media,
expresando la desviación estándar como
porcentaje de la media.

Coeficiente de variación de la población = σ ×(100)


µ
Grado de representatividad de la media
aritmética, para distintos coeficientes de
variabilidad.
Coeficiente Variabilidad Grado en que la media representa a
la serie
De 0 a menos de 10% Media altamente representativa

De 10% a menos de 20% Media bastante representativa

De 20% a menos de 30% Media tiene representatividad

De 30% a menos de 40% Media cuya representatividad es


dudosa
De 40% o más Media carente de representatividad
Para todo conjunto de datos, por lo menos
1–(1/K²)%
De las observaciones están dentro de K
desviaciones estandar de la media

Independientemente de la forma de la
distribución, al menos 75% de los valores
caen dentro de ±2 desviaciones estándar a
partir de la media de la distribución, y al
menos el 89% de los valores caen dentro de
±3 desviaciones estándar a partir de la
media.
En una curva simétrica con forma de campana
podemos medir aún con mas precisión el
porcentaje de observaciones que caen dentro de
un rango especifico:

 Aproximadamente el 68% de los valores de la


población cae dentro de ±1 desviación estándar a
partir de la media.
 Aproximadamente el 95% de los valores de la
población cae dentro de ±2 desviaciones estándar
a partir de la media.
 Aproximadamente el 99% de los valores de la
población cae dentro de ±3 desviaciones estándar
a partir de la media.
Resultado estándar:

Nos da el número e desviaciones estándar que


una observación en particular ocupa por debajo
o por encima de la media.

x - µ
Z = ___________
σ
Representación de formula empírica
Resultado estándar de una observación de la
muestra
___
x - X
Z = ____________
s
x: observación tomada de la muestra
X: Media de la muestra
s: desviación estándar de la muestra

También podría gustarte