Está en la página 1de 13

Estadística descriptiva

Agustín MARIO
Introducción
● Estadística descriptiva: técnicas para resumir información de un conjunto de
datos
● Medidas de: a) posición o tendencia central; b) dispersión
● Posición: promedio o media aritmética; mediana; modo
● Dispersión: varianza (y desvío estándar)
● Ejemplo: y: cuotas anuales de un seguro (U$)
82 85 86 87 87 89 89 90 91 91

92 93 94 95 95 95 95 95 97 98

99 99 100 100 101 101 103 103 103 104

105 105 106 107 107 107 109 110 110 111
Datos no agrupados
● Conocemos todos y cada uno de los datos
● Promedio Ӯ=Σy/n=(y1+y2+...+yn)/n=(82+85+...+111)/40=97,9
● El promedio es muy sensible a valores extremos
● Mediana (Md): valor que separa en dos partes iguales a la distribución; si n
es impar, hay un único valor mediano pero si n es par, tomamos el promedio
de los dos valores medianos (en este caso, y20 e y21)
● Md=(98+99)/2=98,5
● Modo (Mo): valor que más veces se repite
● Mo=95
● Además de la tendencia central, nos interesa estudiar la dispersión de la
distribución (“qué tan distintos son los datos entre sí”)
Datos no agrupados
● Varianza (VAR): promedio de las diferencias de cada valor y el promedio
elevadas al cuadrado
● VAR=(Σ(y-Ӯ)2)/n=[(82-97,9)2+(85+97,9)2+...(111-97,9)2]/40=59,49
● Difícil de interpretar ya que se mide en la unidad de medida original al
cuadrado (dólares al cuadrado, en este caso)
● Desvío estándar (S): al tomar la raíz cuadrada positiva de la varianza,
volvemos a la unidad de medida original
● S=√VAR=7,71
● Tanto VAR como S son medidas de dispersión absolutas: en sí mismas no
indican si la dispersión es “alta” o “baja”
Datos no agrupados
● Coeficiente de variación (CV): medida de dispersión relativa
● CV=S/|Ӯ|=7,71/97,9=0,08
● Si CV﹤0,2, Ӯ es representativa (y viceversa)
● Trabajando con los datos no agrupados, calculamos las medidas
“verdaderas” pero los cálculos pueden ser tediosos (en el ejemplo, tuvimos
que sumar 40 términos…)
Datos agrupados
f F ý (punto
● Definir la cantidad de grupos en que (frecuencia (frecuencia medio)
voy a dividir el conjunto de datos: absoluta) acumulada)
√n=√40=6,32≃6
● Dada la cantidad de grupos, definir el
ancho de cada grupo: 82-86 3 3 84
A=(max-min)/√n=(111-82)/6=4,83≃5
● El primer grupo tendrá 5 valores: 87-91 7 10 89

82,83,84,85 y 86 (y así sucesivamente)


92-96 8 18 94
● Aunque no lo hicimos en este ejemplo,
también podría sumarse A=5 al valor 97-101 8 26 99
más pequeño (quedando
82-87);[87-92);...) 102-106 7 33 104

107-111 7 40 109
Datos agrupados
● Frecuencia absoluta: cantidad de datos que pertenecen al grupo
● Frecuencia acumulada: cantidad de datos que pertenecen al grupo o a los
grupos previos
● Punto medio: promedio simple entre los límites inferior y superior de cada
grupo
● Una vez que agrupamos los datos, calculamos las medidas
● Promedio Ӯ=(Σý.f)/n=(84.3+89.7+...+109.7)/40=97,75
● Ahora sólo tenemos que sumar tantos términos como grupos (en este caso,
6)
● Por el lado negativo, al basarnos en el punto medio, perdemos precisión
Datos agrupados
● Para calcular la mediana, procedemos en dos pasos
● 1) hallamos la posición de la mediana: n/2=40/2=20
● Como el vigésimo dato pertenece al 4° grupo, este será la referencia para aplicar
la fórmula
● 2) Md=LI+{[(n/2).F-1]/f}.A, donde LI: límite inferior del grupo; F-1: frecuencia
acumulada hasta el grupo anterior; f: frecuencia absoluta del grupo; A: ancho del
grupo
● Md=97+[(20-18)/8].5=98,25
● Para calcular el modo, buscamos el grupo con mayor frecuencia absoluta y
aplicamos la fórmula
● Mo=LI+[d1/(d1+d2)].A, donde d1=f-f-1 (la diferencia entre la frecuencia del grupo y
la anterior); d2=f-f+1 (la diferencia entre la frecuencia del grupo y la posterior)
Datos agrupados
● En este caso, hay dos grupos que tienen la mayor frecuencia absoluta (3° y
4°)
● Cuando hay más de un grupo modal, el concepto de modo pierde sentido
pero calculemos el modo con base en el 4° grupo
● Mo=92+[(8-7)/(8-7+8-8)].5=97
● Para calcular la varianza, también nos basamos en el punto medio
● VAR=Σ(ý-Ӯ)2.f/n=[(84-97,75)2.3+(89-97,75)2.7+...+(109-97,75)2.7]/40=59,69
● Para calcular el desvío estándar y el coeficiente de variación, procedemos del
mismo modo que con datos no agrupados
Cuantiles
● Los cuantiles sirven para dividir al conjunto de datos en partes iguales
● Es una denominación general que incluye casos particulares: cuartiles,
quintiles, deciles, percentiles, etc.
● Los cuartiles dividen al conjunto de datos en 4 partes iguales; los quintiles, en
5 (y así sucesivamente)
● En realidad, ya trabajamos con un cuantil: la mediana, que divide al conjunto
de datos en 2 partes iguales
● La mediana equivale al percentil 50 y al cuartil 2
● Para generar dos partes, necesito una partición; para generar 3 partes, dos; y
así siguiendo
Cuantiles
● Como ejemplo, calculemos el cuartil 1 (q1)
● Con datos no agrupados, puede pensarse que estamos calculando la
“mediana” de la primera mitad de los datos, de modo que un 25% de los
mismos queden por debajo del valor (y 75% queden por encima): como n es
par, q1=(91+92)/2=91,5
● Con datos agrupados, procedemos en dos pasos: 1) ubicamos la posición:
n.k/100, donde k es el percentil que estamos buscando (en este caso, k=25)
● 40.25/100=10: el 10° dato pertenece al grupo 2 (al cual aplico la siguiente
fórmula, una generalización de la fórmula de la mediana)
● Pk=LI+{[(n.k/100)-F-1]/f}.A=87+[(10-3)/7].5=92
Cuantiles
● En el ejemplo anterior, nos daban un porcentaje (25%) y nos pedían el valor
de la variable que dividía el conjunto de datos entre el 25% y el 75% restante
● Supongamos que ahora nos preguntan qué porcentaje de los datos está por
debajo de un cierto valor; específicamente, qué porcentaje de las compañías
cobra hasta 100 dólares por el seguro
● Con base en la fórmula anterior, ahora nuestra incógnita es k (y la aplicamos
al grupo 4 pues el valor 100 está incluido en él)
● 100=97+{[(40.k/100)-18]/8}.5
● Despejando para k, obtenemos k=57: el 57% de las compañías cobra hasta
100 dólares por el seguro (el 43% restante cobra más de 100 dólares)
Medidas de forma
● Una característica importante de una distribución de datos es su grado de
simetría
● Si bien puede calcularse el coeficiente de asimetría, utilizaremos aquí una
medida más “intuitiva”
● Una distribución es simétrica si tiene tantos datos a un lado como al otro de
su promedio, es decir, si el promedio coincide con la mediana: si la Md es
menor que el promedio, hay asimetría positiva (y viceversa)
● De modo que es posible aproximar el grado de asimetría comparando el
promedio con la mediana: si la diferencia es “grande”, también lo es la
asimetría (y viceversa)

También podría gustarte