Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Conceptos de Estadistica Descriptiva 012015 PDF
Conceptos de Estadistica Descriptiva 012015 PDF
ESTADSTICA
DESCRIPTIVA
CONCEPTOS BSICOS
Agosto de 1996
INTRODUCCIN
La investigacin cuya finalidad es el anlisis o experimentacin de situaciones para el
descubrimiento de nuevos hechos, la revisin o establecimiento de teoras y las
aplicaciones prcticas de las mismas, se basa en los principios de observacin y
razonamiento; necesita en su carcter cientfico el anlisis tcnico de datos para obtener
de ellos informacin confiable y oportuna. Este anlisis de datos requiere de la
Estadstica como una de sus principales herramientas, por lo que los investigadores de
profesin y las personas que de una y otra forma la realizan requieren adems de los
conocimientos especializados en su campo de actividades, del manejo eficiente de los
conceptos, tcnicas y procedimientos estadsticos.
ESTADSTICA
Es el conjunto de procedimientos y tcnicas empleadas para recolectar, organizar y
analizar datos, los cuales sirven de base para tomar decisiones en las situaciones de
incertidumbre que plantean las ciencias sociales o naturales.
ANALISIS ESTADSTICO
El anlisis estadstico es todo el proceso de organizacin, procesamiento, reduccin e
interpretacin de datos para realizar inferencias.
DATOS Y VARIABLES
Cuando se consideran los mtodos de organizacin, reduccin y anlisis de datos
estadsticos, se hace necesario aclarar los siguientes conceptos.
Variables: es toda caracterstica que vara de un elemento a otro de la poblacin.
Datos: son medidas o valores de las caractersticas susceptibles de observar y contar, se
originan por la observacin de una o ms variables de un grupo de elementos o
unidades.
CLASIFICACIN DE VARIABLES
Las variables pueden clasificarse en: categricas o cualitativas (atributos), no tienen
ningn grado de comparacin numrica, ejemplo: sexo, estado civil; y numricas o
cuantitativas, son caractersticas factibles de expresar por medio de nmeros, estas
pueden ser Discretas, que solo pueden tomar ciertos valores aislados en un intervalo, y
Continuas, que pueden tomar cualquier valor en un intervalo.
NIVEL DE MEDICIN
Los niveles de medicin corresponden a una clasificacin acordada a fin de describir la
naturaleza de la informacin contenida dentro de los datos y por lo tanto en variables. Un
nivel de medicin es una escala que representa una jerarqua de precisin dentro de la
cual una variable puede evaluarse. Varias operaciones matemticas diferentes son
posibles dependiendo del nivel en el cual se mide la variable.
Estas escalas son:
Nominal, consiste en categoras mutuamente excluyentes que no implican ningn orden
lgico.
Ordinal, corresponde a distintas categoras en las que hay implcito un orden.
Intervalo, conjunto de valores numricos para los que la distancia entre nmeros
sucesivos es de tamao constante y medible y conocido, permite determinar la diferencia
entre puntos a lo largo de un mismo continuo. Tienen un punto cero arbitrario.
Razn, medidas numricas para los cuales la distancia entre dos nmeros tiene un
tamao constante y conocido, donde la razn entre dos nmeros tiene algn significado,
existe un punto cero fijo no arbitrario. El cero significa ausencia de la caracterstica.
REPRESENTACIN DE DATOS
Los datos son colecciones de un nmero cualquiera de observaciones relacionadas
entre s, para que sean tiles se deben organizar de manera que faciliten su anlisis, se
puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y
permitan llegar a conclusiones lgicas y tomar decisiones bien fundamentadas; por esa
razn es necesario conocer lo mtodos de Organizacin y Representacin, la finalidad
de stos mtodos es permitir ver rpidamente todas las caractersticas posibles de los
datos que se han recolectado.
Representacin Tabular:
Presenta las variables y las frecuencias con que los valores de stas se encuentran
presentes en el estudio. Resumen la informacin que deben poner en evidencia los
aspectos que interesa mostrar y resalten las comparaciones que se desean hacer notar.
Representacin Grfica:
Se llaman grficas a las diferentes formas de expresar los datos utilizando los medios de
representacin que proporciona la geometra. Entrega informacin utilizando dibujos
que permiten no solo presentar los datos sino expresar ideas que se desean destacar.
DISTRIBUCIN DE FRECUENCIAS
Organizacin de datos agrupados
Definiciones
Clases o intervalos de clase: Grupo de valores que describen una caracterstica. Deben
incluir todas las observaciones y ser excluyentes. Los intervalos contienen los lmites de
clase que son los puntos extremos del intervalo. Se denominan intervalos cerrados,
cuando contienen ambos lmites e intervalos abiertos si incluyen solo un lmite.
Anchura o tamao del intervalo: es la diferencia entre los lmites reales de una clase
Nmero de clases: es el nmero total de grupos en que se clasifica la informacin, se
recomienda que no sea menor que 5 ni mayor que 15
Marca de Clase: Es el punto medio del intervalo de clase, se recomienda observar que
los puntos medios coincidan con los datos observados para minimizar el error.
Frecuencia Acumulada: Indica cuantos casos hay por debajo o arriba de un determinado
valor o lmite de clase.
Histograma:
Est formado por rectngulos cuya base es la amplitud del intervalo y tiene la
caracterstica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases
que tienen el mismo tamao o diferente (intervalo variable). La utilizacin de los
intervalos de amplitud variable se recomienda cuando en alguno de los intervalos, de
amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos
de los intervalos sean extremadamente ms grandes que la de los dems, logrando as
que las observaciones se hallen mejor repartidas dentro del intervalo.
Polgono de Frecuencias
Se puede obtener uniendo cada punto medio (marca de clase) de los rectngulos del
histograma con lneas rectas, teniendo cuidado de agregar al inicio y al final marcas de
clase adicionales, con el objeto de asegurar la igualdad del reas.
Curvas de frecuencia
No es ms que la curva suavizada que se traza sobre el polgono y representa la
asimetra y la curtosis que tiene la distribucin, permite visualizar un esquema ms claro
del patrn de datos. Existen varios tipos de curva de frecuencia: Curvas J, Simtricas o
Asimtricas (sesgada a la derecha o a la izquierda), Unimodales, Bimodales y
Multimodales.
Ojivas:
Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos
diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es
necesario tener una base estndar, la frecuencia relativa. La ojiva representa
grficamente la forma en que se acumulan los datos y permiten ver cuantas
observaciones se hallan por arriba o debajo de ciertos valores. Es til para obtener una
medida de los cuartiles, deciles, percentiles.
MEDIDAS DESCRIPTIVAS
Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de
observaciones de una variable y describir con ellas ciertas caractersticas de los
conjuntos, logrando una comparacin ms precisa de los datos que la que se puede
conseguir con tablas y grficas.
Los promedios son medidas de posicin que dan una descripcin compacta de cmo
estn centrados los datos y una visualizacin ms clara del nivel que alcanza la variable,
pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor
facilidad para efectuar comparaciones.
Es importante poner en relieve que la notacin de promedio lleva implcita la idea de
variacin y que este nmero promedio debe cumplir con la condicin de ser
representativo de conjunto de datos.
El promedio como punto tpico de los datos es el valor al rededor del cual se agrupan los
dems valores de la variable.
MEDIA ARITMTICA
Caractersticas de la Media:
1. En su clculo estn todos los valores del conjunto de datos por lo que cada uno afecta
la media.
2. La suma algebraica de las desviaciones de los valores individuales respecto a la
media es cero.
3. La suma del cuadrado de las desviaciones de una serie de datos a cualquier nmero
A es mnimo si A = X
4. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser
afectada por los valores extremos, y de esa forma llegar a ser una medida menos
representativa, por lo que si la distribucin es asimtrica, la media aritmtica no
constituye un valor tpico.
LA MODA
Es el valor de un conjunto de datos que ocurre ms frecuentemente, se considera como
el valor ms tpico de una serie de datos.
Para datos agrupados se define como Clase Modal el intervalo que tiene ms frecuencia.
La moda puede no existir o no ser nica, las distribuciones que presentan dos o ms
mximos relativos se designan de modo general como bimodales o multimodales.
Caractersticas de la Moda.
1. Representa ms elementos que cualquier otro valor
2. No est afectada por los valores extremos pero para datos continuos es dudoso su
clculo.
3. La moda para una distribucin de frecuencias de datos agrupados no puede ser
calculada exactamente, el valor de la moda puede ser afectado por el mtodo de
agrupacin de los intervalos de clase.
4. La moda no permite conocer la mayor parte de los datos.
5. Algunas veces el azar interviene de manera importante y hace que un valor no
representativo se repita frecuentemente.
6. Puede usarse para datos cuantitativos como cualitativos.
7. La moda como estadstico, vara mucho de una muestra a otra.
8. Cuando se tienen dos o ms modas es difcil su interpretacin.
9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no la
distorsionan, pero no se presta para un tratamiento matemtico.
LA MEDIANA
Es el valor de la observacin que ocupa la posicin central de un conjunto de datos
ordenados segn su magnitud. Es el valor medio o la media aritmtica de los valores
medios. La mediana es un valor de la variable que deja por debajo de l un nmero de
casos igual al que deja por arriba.
Geomtricamente la mediana es el valor de la variable que corresponde a la vertical que
divide al histograma en dos reas iguales.
Cuando determinados valores de un conjunto de observaciones son muy grandes o
pequeos con respecto a los dems, entonces la media aritmtica se puede distorsionar
y perder su carcter representativo, en esos casos es conveniente utilizar la mediana
como medida de tendencia central.
Caractersticas de la mediana
1. Es un promedio de posicin no afectado por los valores extremos.
2. No est definida algebraicamente.
3. Cuando la localizacin del elemento central puede ser determinada y los lmites de
clase mediana son conocidos, la mediana para la distribucin de frecuencias puede ser
calculada por interpolacin, no importando que sta contenga intervalos abiertos,
cerrados, iguales o diferentes.
4. La suma de los valores absolutos, sin considerar el signo, de las desviaciones
individuales respecto a la mediana es mnimo.
5 La mediana en caso de una distribucin asimtrica, no resulta desplazado del punto de
tendencia central.
6. Si el universo tiene curtosis excesiva la mediana como estadstico, vara menos que
cualquier otra medida.
7. Si la mediana se calcula por interpolacin y hay lagunas en los valores de la clase
mediana o los datos son irregulares, esta medida no es buena ya que su ubicacin
puede resultar falsa.
8. Si se desea ubicar las condiciones de un elemento en una clase, la mediana resulta se
indicada, ya que por comparacin pone en evidencia si un elemento est en la mitad
superior a ella o en la inferior.
Fuente:http://www.monografias.com/trabajos43/medidas-tendencia-central/medidas-
tendencia-central2.shtml
MEDIA GEOMTRICA
til cuando la variable cambia a lo largo del tiempo, esto es, en el calculo del promedio
de tasas, razones, proporciones geomtricas y relaciones de variables. Se utiliza en
Matemticas Financieras y Finanzas para promediar nmeros ndices, tasas de cambio,
cocientes, tasas de variacin, etc.
La media Geomtrica de una serie de nmeros es la raz n-sima del producto de esos
nmeros
n
M= (x1 * x2* x3*.....*xn)
Se ve afectada por todos los nmeros y valores extremos pero en menor grado que la
Media Aritmtica, su valor siempre es menor que el de sta.
MEDIA ARMNICA
Se utiliza para el promedio de rendimientos y velocidades. La Media Armnica de una
serie de nmeros es el reciproco de la media aritmtica del recproco de esos nmeros.
1 / MH = [ 1 / xi ] / n
MEDIA CUADRTICA
Es la raz cuadrada de la media aritmtica de los cuadrados de los nmeros, se usa
eficientemente para promediar los errores o desviaciones porque es ms susceptible a
los mismos.
[ xi ] / n
2 2
MC =
LOS CUANTILES
Son valores que dividen a la distribucin en n partes iguales
Cuartiles, cuatro partes iguales: Q1, Q2, Q3
Deciles, diez pares iguales : D1, D2..........D9
Percentiles o centiles, cien partes iguales: P1, P2.....P99
Los cuantiles permiten hacer un anlisis minucioso de la distribucin, se utilizan
generalmente cuando se quiere ubicar un dato dentro del conjunto. Por ejemplo.
Pertenece el dato x al 50% superior ?, al 10% inferior? , al 50 % central?, etc.
MEDIDAS DE DISPERSIN
Un rasgo principal de los datos es su dispersin o amplitud, que se refiere a su
variabilidad, a la evaluacin de cun separados o extendidos estn estos datos o bien
cuanto difieren unos de otros.
Variacin: es el grado en que los datos numricos tienden a extenderse alrededor de un
valor, generalmente el valor medio
Por qu es importante la variacin?
1. Al menudo una medida de posicin de un conjunto de datos se vincula con la
indicacin de cun tpico o representativo es para la poblacin y para ello es necesario
contar con la informacin que proporcionan las mediadas de variacin. Solo el
conocimiento de un estadstico de tendencia central no aclara o define toda la
distribucin, adems que no existe un valor de tendencia central ideal, por lo que es
significativo tener una idea de la dispersin de los valores y determinar si es mucha o
poca alrededor de la media, pues si la variacin es muy grande entonces esta medida de
tendencia central no es buena seleccin como valor tpico.
2. La medida de tendencia central no indica la relacin de un dato con los otros, es
necesario para ello las medidas de variabilidad o dispersin.
3. Al tratar problemas con datos dispersos se requiere conocer que problemas puede
esto traer, hasta qu punto la dispersin tiene un riesgo aceptable o inaceptable en la
toma de decisiones.
4. Al comparar dos distribuciones por lo general centramos la atencin en la posicin y
en la dispersin.
RANGO
Mide la dispersin de la totalidad de los datos. Es la ms obvia de las mediadas ya que
es la distancia entre los valores mximo y mnimo.
El rango o recorrido da alguna idea del grado de variacin que ocurre en la poblacin,
pero con frecuencia los resultados pueden ser engaosos, pues este depende de los
valores extremos e ignora la variacin de las dems observaciones. Est afectado por
ocurrencias raras o extraordinarias.
INTERVALO INTERDECIL
Mide la dispersin del 80% de los datos centrales y se obtiene de la diferencia entre el
decil 9 y el decil 1, evitando as los puntos extremos.
INTERVALO INTERCUARTIL:
Cuando aumenta la dispersin de una distribucin de frecuencias, se ampla la distancia
entre los cuartiles, por lo que esta distancia puede usarse como base de una medida de
variabilidad
El intervalo intercuartil, es el recorrido entre el cuartil 3 y el cuartil 1. Es el intervalo en el
cual est comprendido el 50% de los datos centrales.
DESVIACIN CUARTLICA
Mide el intervalo promedio de un cuarto de los datos [Q3-Q1)/2]
Si la distribucin es perfectamente simtrica, los dos cuartiles Q1 y Q3 equidistan de la
mediana y la mitad de la distancia entre los cuartiles representa la distancia promedio
entre ellos y la mediana.
Si en una distribucin simtrica se mide una distancia igual a la desviacin cuartlica a
ambos lados de un punto ubicado en el centro de los cuartiles, el 50% de los valores
estarn incluidos dentro de esos lmites y el valor del punto medio coincide con la
mediana.
La ventaja de la desviacin cuartlica es que evita los valores extremos utilizando
nicamente la mitad intermedia de los datos.
DESVIACIN MEDIA
La desviacin Media o Desviacin absoluta promedio, es la media aritmtica de las
desviaciones absolutas de cada una de las observaciones con respecto a su valor
central, la media aritmtica, o la mediana
Cuanto mayor es su valor, mayor es la dispersin de los datos
DM =[ | xi . X | ] / n
DM = [ fi | xi - X | ] / fi
VARIANZA
Otro tratamiento para evadir la suma cero de las desviaciones de las observaciones
respecto a su Media Aritmtica, consiste en recurrir al proceso de elevar al cuadrado
estas desviaciones y sumar los cuadrados, dividiendo la suma por el nmero de casos, a
esta cantidad se le denomina varianza, y es la ms importante de las medidas de
variacin porque tiene la ventaja de no prescindir de los signos de las desviaciones, pero
al igual que la desviacin media los valores extremos pueden distorsionarla
= ( xi - ) / N
2 2
= fi (xi- ) /
2 2
fi
S = (xi-X) / ( n)
2 2
S = fi ( xi-X ) / ( fi )
2 2
S * = (xi-X) / ( n-1)
2 2
En inferencia, con una muestra tomada de una poblacin grande se pretende descubrir
cuanto varan los datos alrededor de la media poblacional, sin embargo cuando no se
conoce la media de la poblacin se estima a partir de la media aritmtica de la muestra y
esto hace que parezca menos variable de o que es en realidad, al dividir por n-1 se est
compensando por la variabilidad ms pequea que se observa en la muestra, por lo que
2
S * , la suma de cuadrados dividida por n-1 es considerado un estimador ms eficiente
para la varianza poblacional.
DESVIACION ESTANDAR
Cuando se utiliza la varianza como medida de dispersin, para salvar el problema de
trabajar con distintas dimensiones en la media y en la medida de variabilidad es
necesario definir la Desviacin estndar como la raz cuadrada de la varianza.
La Desviacin Estndar es til para describir cuanto se apartan de la media de la
distribucin los elementos individuales. Una medida de ello se denomina puntuacin
estndar nmero de desviaciones a las que determinada observacin se encuentra con
respecto a la media.
Puntuacin estndar de xi = (xi - X) /s
COEFICIENTE DE VARIACIN
Es la medida de dispersin relativa ms usada y se define como el cociente de la
desviacin estndar entre el promedio aritmtico, expresado en porcentaje y es
adimensional
V=S/X
MEDIDAS DE ASIMETRA Y CURTOSIS
Fuente: http://www.spssfree.com/spss/analisis3.html
COEFICIENTE DE PEARSON
En las distribuciones simtricas, la media, la mediana y la moda coinciden y conforme la
distribucin se separa de la simetra estos valores se separan, por lo que la ms
corriente de las medidas de asimetra es la diferencia entre la moda y la media que se la
ms sensible a los valores extremos
Sk = ( X -Mo) / S
Para cuando la moda no se encuentra bien definida se puede sustituir por la mediana
Sk= 3 ( X -Me) / S
Estas medidas se conocen como el primero y segundo coeficiente de Pearson y varan
entre el intervalo + 3, es cero para la distribucin normal.
Si es mayor que cero el sesgo es a la derecha y si es menor que cero el sesgo es a la
izquierda
MEDIDA CUARTIL DE ASIMETRIA
En una distribucin simtrica los cuartiles quedan simtricamente colocados respecto a
la mediana, pero si es asimtrica un cuartil se separa ms que otro. La medida cuartil de
asimetra marca esta relacin
Sk =[ ( Q3-Me) -( Me-Q1) ]/ ( Q3-Q1)
Si la asimetra es a la derecha Q3 est ms lejos de la mediana que Q 1, si la asimetra
es a la izquierda Q1 est ms alejada de la mediana que Q3.Esta medida vara siempre
entre + 1, si es cero la distribucin es normal.
MEDIDAS DE CURTOSIS
Al comparar cun aguda es una distribucin en relacin con la Distribucin Normal, se
pueden presentar diferentes grados de apuntalamiento.
1. Mesocrtica, Normal
2. PlarticrtiCa, Menor apuntalamiento
3. Leptocrtica, Mayor apuntalamiento
Fuente:www.spssfree.com/spss/analisis3.html
gg/05/ 1996
Revisado 07/2014