Está en la página 1de 38

ESTADSTICA DESCRIPTIVA

La estadstica tiene que ver con la


recopilacin, presentacin, anlisis y uso
de datos para tomar decisiones y resolver
problemas.
Cualquier persona recibe informacin en
forma de datos a travs de los peridicos,
la televisin u otros medios; y a menudo
es necesario obtener alguna conclusin a
partir de la informacin contenida en los
datos.
Los mtodos empleados para resumir y
organizar datos se denominan
estadstica descriptiva; mientras que los
mtodos para tomar decisiones se
denominan inferencia estadstica.
El trmino poblacin se refiere a los
elementos del universo respecto al cual
se quieren obtener conclusiones o tomar
decisiones. A cada elemento se le puede
asociar una medicin que bien puede ser
numrica o cualitativa dependiendo de la
caracterstica que se quiera estudiar. El
trmino muestra se refiere al subconjunto
de observaciones seleccionadas de la
poblacin de inters
Variables:
A cada caracterstica de los elementos de una
poblacin se le llama variables. Nos
encontraremos con varios tipos de variables:
cualitativas y cuantitativas.
Las variables cualitativas son aquellas que se
refieren a categoras o atributos de los
elementos (individuos) estudiados. Las variables
cuantitativas son aquellas cuyos datos son de
tipo numrico.
TIPOS DE VARIABLES CUALITATIVAS
Dicotmicas: Slo hay dos categora, que son
excluyentes una de la otra
Ejemplo: enfermo-sano, muerto-vivo, mujer-
hombre
Nominal: tiene mas de dos categoras y no hay
orden entre ellas.
Ejemplo: color de los ojos, grupo sanguneo
Ordinal: tiene varias categoras y hay orden
entre ellas.
Ejemplo: grado tumoral, calificacin del riesgo
en anestesia.
TIPOS DE VARIABLES CUANTITATIVAS
Continuas: nmeros infinito no numerables de
elementos. Tiene asociado el concepto de
medida
Ejemplo: Presin arterial, Edad, peso.
Discretas: nmeros finitos o infinitos
numerables de elementos. Se asocia con el
concepto de conteo.
Ejemplo: N de hijos, N de casos de
tuberculosis por estado.
Hay ocasiones en las que las medidas
cuantitativas continuas son transformadas
en ordinales mediante la utilizacin de
uno o varios puntos de corte.
Ejemplo: La variable peso es codificada
en varias categoras y se utiliza en
trminos como: Bajo-peso, peso-normal,
Sobrepeso, Obesidad
Las descripciones numricas de datos suelen
ser importantes. Dado un conjunto de n
observaciones x1 , x2 ,....., xn
La estadstica descriptiva nos puede ayudar
mediante resmenes numricos, que son
medidas de tendencia central, o tambin
llamadas de posicin y medidas de dispersin
Las medidas descriptivas ms comunes
de tendencia central o localizacin son:
la media aritmtica y la mediana (existen
otras medidas de tendencia central que
en ocasiones pueden resultar de inters:
la moda, los cuartiles, los deciles, los
percentiles, la media armnica, la media
geomtrica y la media ponderada.)
La media aritmtica o simplemente promedio
(tambin llamada media muestral ya que
generalmente se calcula en relacin a una
muestra) se calcula de la siguiente forma: si las
observaciones de una muestra de tamao n son
x1, x2,,xn entonces
n

x
x 1 x 2 ... x n i 1
i

X
n n
Caracterstica de la Media
Es intuitiva y fcil de calcular.
Su valor puede que no coincida con ninguno de los
valores de la muestra
La suma de las diferencias de cada valor de la muestra
con la media su resultado es cero, es decir,
n

(x x) 0
i 1
i
La mediana se suele definir como el valor
ms intermedio una vez que los datos
han sido ordenados en forma creciente.
Se suele denotar por Me. La forma ms
general de calcular la mediana es la
siguiente:
x n 1 2 si n es impar

Me x
n 2 x ( n 2) 1
si n es par
2
La mediana es aquel valor que deja el
cincuenta por ciento de los datos por
debajo y otro cincuenta por encima.
Cabe destacar que es preferible el uso de
la mediana como medida descriptiva del
centro cuando se quiere reducir o eliminar
el efecto de valores extremos en un
conjunto de datos (muy grandes o muy
pequeos).
Moda:
Es una medida de tendencia central que
se puede utilizar sea cual sea el tipo de
variable a estudiar. La moda de un
conjunto de observaciones es el valor que
ms se repite, aquel cuya frecuencia
absoluta es mxima. Puede ser nica,
que haya ms de una, o que no exista.
Media Geomtrica:
Se define como la raz n-sima del producto
de todos los valores numricos, es decir,
n
X G n x1.x2 ....xn n ( xi )
i 1
La media armnica:
Se define como el nmero de
observaciones de la muestra dividido por la
suma del inverso de cada una de las
observaciones, es decir,

n
XA n

(1 / x )
i 1
i
La localizacin o tendencia central de un
conjunto de datos no necesariamente
proporciona informacin suficiente para
describirlos adecuadamente. Debido a que no
todos los valores son semejantes, la variacin
entre ellos se considera importante. Se puede
decir que un conjunto de datos tiene una
dispersin reducida si los mismos se aglomeran
estrechamente en torno a alguna medida de
localizacin de inters y se dice que tiene una
dispersin grande si se esparcen ampliamente
alrededor de alguna medida de localizacin de
inters.
Las medidas descriptivas ms comunes
de dispersin son: el rango, la varianza,
la desviacin estndar y el rango
intercuartlico.
El rango de la muestra es la medida de
variabilidad ms sencilla entre todas las
mencionadas; y se define como la diferencia
entre la observacin ms grande y la ms
pequea : r xmax xmin
Aunque es una medida muy fcil de
calcular, ignora toda la informacin de la
muestra entre las observaciones ms
grande y ms pequea. Sin embargo, vale
la pena resaltar que el rango se utiliza
mucho en aplicaciones estadsticas al
control de calidad, donde lo comn es
emplear muestras con tamaos n = 4 o
n = 5 ya que en estos casos la prdida de
informacin no se considera relevante.
En general, se desea una medida de
variabilidad que dependa de todas las
observaciones y no slo de unas pocas;
as que parece razonable medir la
variacin en trminos de las desviaciones
relativas a alguna medida de localizacin
(generalmente esta medida es la media)
Para el conjunto de datos x1, x2,.,xn
Las diferencias ( x1 x ), ( x2 x ),....., ( xn x )
Determinan las desviaciones de la media.
Dado que la suma de estas desviaciones es
cero, se utiliza como medida de variabilidad
el promedio de los cuadrados de tales
desviaciones.
n

(x x)
i
2

s
2 i 1
n
Sin embargo, como slo hay n-1
desviaciones independiente se
conviene en dividir entre n-1, es
decir,
n

(x i x) 2

S 2
i 1
n 1

Esta ltima ser la frmula que


emplearemos.
Esta medida de variabilidad se denomina
varianza. Como S2 no tiene las mismas
unidades que los datos, se define la
desviacin estndar como la raz
cuadrada (positiva) de la varianza a fin de
tener una medida en las mismas unidades
de los datos; La desviacin estndar es
til para comparar dispersin entre dos
poblaciones, pero tambin lo es para
calcular el porcentaje de la poblacin que
pueden localizarse a menos de una
distancia especfica de la media.
Cuartiles, deciles y percentiles
Los cuatiles dividen a un conjunto de
datos en cuatro partes iguales.
Para explicarlo un poco mejor, piense en
un conjunto de datos ordenados de menor
a mayor. Al valor de en medio es la
mediana. Esto es, 50 por ciento de los
datos son mayores que la mediana y 50
por ciento son menores. De manera
similar los cuartiles dividen a un conjunto
de datos en cuatro partes igueles.
El primer cuartil, al que se le llama Q 1, es el
valor por debajo del cual se encuentra el
25% de los datos, y el tercer cuartil
usualmente llamado Q3, es el valor por
debajo de el se encuentra el 75% de los
datos. Q2 es la mediana. Los valores Q 1, Q2
y Q3 dividen al conjunto de datos
ordenados en cuatro partes iguales. Q 1 se
puede entender como la mediana de la
mitad inferior de los datos ordenados y Q 3
como la mediana de la mitad superior de
los datos ordenado.
Procedimiento para el calculo de los
percentiles
Sea Lp la posicin del percentil deseado.
p
Entonces L p ( n)
100
donde n es el numero de datos y p el percentil
Ejemplo: el percentil 33 P33, el percentil 50 es el
P50, que es tambin la mediana el Q2. El
percentil 25 es el P25=Q1 y el percentil 75 es el
P75=Q3
Calculo del p-simo percentil
Paso 1: Ordenar los datos de manera
ascendente.
p
L (n)
Paso 2: Calculamos el Lp ( p %
100 )
Paso 3: a) Si Lp no es entero, se redondea. El
valor entero inmediato mayor que L p indica la
posicin del p-simo percentil.
b) Si Lp es entero, el p-simo persentil es el
promedio de los valores de los datos ubicados
en los lugares i e i+1
Por Ejemplo:
Si tenemos 15 datos ordenados y que-
remos localizar el primer cuartil (percentil
25) segn la formula este estar ubicado
en la posicin 4 (por redondeo) y el tercer
cuartil (percentil 75) estar ubicado en la
posicin 12 (por redondeo)
Si tenemos 20 datos ordenados el primer
cuartil estara en la posicin intermedia
entre el 5 y el 6 dato es decir si el 5
dato fuese 36 y el 6 41 el P25=Q1=38,5
Asimetra
Si los valores de la serie de datos presenta la
misma forma a izquierda y derecha de un valor
central (media aritmtica) se dice que es
simtrica de lo contrario ser asimtrica.
Para medir el nivel de asimetra se utiliza el
llamado Coeficiente de Asimetra de Fisher,
que viene definido:
n
(1 / n)( ( xi x ) 3
g1 i 1
s3
Los resultados pueden ser los siguientes:
g1 = 0 (distribucin simtrica; existe la misma
concentracin de valores a la derecha y a la
izquierda de la media)
g1 > 0 (distribucin asimtrica positiva; existe
mayor concentracin de valores a la derecha de
la media que a su izquierda)
g1 < 0 (distribucin asimtrica negativa; existe
mayor concentracin de valores a la izquierda
de la media que a su derecha)
Curtosis
El Coeficiente de Curtosis analiza el
grado de concentracin que presentan los
valores alrededor de la zona central de la
distribucin.
Se definen 3 tipos de distribuciones segn
su grado de curtosis:
Distribucin mesocrtica: presenta un grado
de concentracin medio alrededor de los valores
centrales de la variable (el mismo que presenta
una distribucin normal).
Distribucin leptocrtica: presenta un elevado
grado de concentracin alrededor de los valores
centrales de la variable.
Distribucin platicrtica: presenta un reducido
grado de concentracin alrededor de los valores
centrales de la variable.
El Coeficiente de Curtosis viene definido
por la siguiente frmula:
n
(1 / n)( ( xi x ) 4
g2 i 1
4
3
s
Los resultados pueden ser los siguientes:
g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).

También podría gustarte