Está en la página 1de 25

ANLISIS DESCRIPTIVO DE DATOS

CURSO: MTODOS ESTADSTICOS

ENEI

INTRODUCCIN
La palabra estadstica a menudo nos trae a la mente imgenes de nmeros apilados en grandes
arreglos y tablas, de volmenes de cifras relativas a nacimientos, muertes, impuestos, poblaciones,
ingresos, deudas, crditos, y as sucesivamente
Huntsberger
INTRODUCCIN
Actualmente se reconoce la importancia de la estadstica aplicada en el desarrollo de investigaciones en
muy diversos campos; cada vez son ms los profesionales de diferentes disciplinas que requieren de
mtodos estadsticos como muestreo, simulacin, diseo de experimentos, modelamiento estadstico e
inferencia, para llevar a cabo recoleccin, compendio y anlisis de datos y para su posterior
interpretacin.
Anlogo al proceso de experimentacin llevado a cabo en laboratorios con el objetivo de aumentar la
comprensin de alguna teora para su validacin y empleo posterior, la simulacin, considerada como
un mtodo de experimentacin controlada, es el proceso de imitacin de aspectos importantes del
comportamiento de un sistema, mediante la construccin de un modelo implementado en un
computador de tal forma que permita generar observaciones dadas ciertas entradas. Con el anlisis
estadstico de tales observaciones se estiman medidas del comportamiento del sistema de inters. Sin
embargo, de esta manera no es posible encontrar resultados ptimos, sino ms bien, resultados
satisfactorios a problemas de difcil, costosa o imposible resolucin mediante otros mtodos.
La Estadstica es mucho ms que slo nmeros apilados y grficas bonitas. Es una ciencia con tanta
antigedad como la escritura, y es por s misma auxiliar de todas las dems ciencias. Los mercados, la
medicina, la ingeniera, los gobiernos, etc. Se nombran entre los ms destacados clientes de sta.
La ausencia de sta conllevara a un caos generalizado, dejando a los administradores y ejecutivos sin
informacin vital a la hora de tomar decisiones en tiempos de incertidumbre.
La Estadstica que conocemos hoy en da debe gran parte de su realizacin a los trabajos matemticos
de aquellos hombres que desarrollaron la teora de las probabilidades, con la cual se adhiri a la
Estadstica a las ciencias formales.

DEFINICIN Y UTILIDAD DE LA ESTADSTICA


Prof. Willer David Chanduv Puicn

Pgina 1

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

La Estadstica es una disciplina que utiliza recursos matemticos para organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.
Por ejemplo, la estadstica interviene cuando se quiere conocer el estado sanitario de un pas, a travs
de ciertos parmetros como la tasa de morbilidad o mortalidad de la poblacin. En este caso la
estadstica describe la muestra en trminos de datos organizados y resumidos, y luego infiere
conclusiones respecto de la poblacin. Por ejemplo, aplicada a la investigacin cientfica, hace
inferencias cuando emplea medios matemticos para establecer si una hiptesis debe o no ser
rechazada.
La estadstica puede aplicarse a cualquier mbito de la realidad, y por ello es utilizada en fsica,
qumica, biologa, medicina, astronoma, psicologa, sociologa, lingstica, demografa, etc.
Cuando en cualquiera de estas disciplinas se trata de establecer si una hiptesis debe o no ser
rechazada, no siempre es indispensable la estadstica inferencial.
Por ejemplo, si sobre 60 veces que se mira un dado, sale un dos 10 veces, no se requiere la estadstica
para rechazar la hiptesis el dado est cargado. Si sale un dos en 58 ocasiones sobre 60, tampoco se
necesita la estadstica para aceptar la hiptesis el dado est cargado.
Pero, qu ocurre si el nmero dos sale 20, 25 o 30 veces? En estos casos de duda, la estadstica
interviene para determinar hasta qu cantidad de veces se considerar rechazada la hiptesis (o bien
desde qu cantidad de veces se la considerar aceptada). En otras palabras, la estadstica interviene
cuando debe determinarse si los datos obtenidos son debidos al azar o son el resultado de un dado
cargado.
Otro ejemplo. Si una persona adivina el color (rojo o negro) de las cartas en un 50% de los casos, se
puede rechazar la hiptesis la persona es adivina. Si, en cambio, acierta en el 99% de los casos el
color de las cartas, se puede aceptar la mencionada hiptesis. Los casos de duda corresponden a
porcentajes de acierto intermedios, como el 60%, el 70%, etc., en cuyos casos debe intervenir la
estadstica para despejarlos.
La importancia de la estadstica en la investigacin cientfica radica en que la gran mayora de las
investigaciones son casos de duda.
La Estadstica es la ciencia cuyo objetivo es reunir una informacin cuantitativa concerniente a
individuos, grupos, series de hechos, etc. y deducir de ello gracias al anlisis de estos datos unos
significados precisos o unas previsiones para el futuro.
La estadstica, en general, es la ciencia que trata de la recopilacin, organizacin presentacin, anlisis
e interpretacin de datos numricos con el fin de realizar una toma de decisin ms efectiva.
Otros autores tienen definiciones de la Estadstica semejantes a las anteriores, y algunos otros no tan
semejantes. Para Chacn esta se define como la ciencia que tiene por objeto el estudio cuantitativo de
Prof. Willer David Chanduv Puicn

Pgina 2

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

los colectivos; otros la definen como la expresin cuantitativa del conocimiento dispuesta en forma
adecuada para el escrutinio y anlisis.
La ms aceptada, sin embargo, es la de Minguez, que define la Estadstica como La ciencia que tiene
por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las
leyes que los rigen y hacer su prediccin prxima.
Los estudiantes confunden comnmente los dems trminos asociados con las Estadsticas, una
confusin que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra
estadstica, en primer trmino se usa para referirse a la informacin estadstica; tambin se utiliza para
referirse al conjunto de tcnicas y mtodos que se utilizan para analizar la informacin estadstica; y el
trmino estadstico, en singular y en masculino, se refiere a una medida derivada de una muestra.
En la frondosa literatura estadstica se pueden encontrar diversas formas de definir la Estadstica. Por
ejemplo, George Canavos indica que: La Estadstica es el estudio de las formas aleatorias. Robert
Jhonson dice que: la estadstica es el lenguaje universal de las ciencias. Murray Spiegel seala que:
La Estadstica estudia los mtodos cientficos para recoger, organizar, resumir, analizar e interpretar
los datos, as como sacar conclusiones vlidas y tomar decisiones razonables basadas en tal anlisis.
Para nuestro propsito de simplificar el entendimiento de la estadstica debemos concluir en el
siguiente concepto: La Estadstica es la ciencia que se ocupa de los mtodos y procedimientos para
recoger, clasificar, presentar, analizar e interpretar los datos.
Divisin de la Estadstica
La Estadstica para su mejor estudio se ha dividido en dos grandes ramas: la Estadstica
Descriptiva y la Inferencial.
o

Estadstica Descriptiva:
Consiste sobre todo en la presentacin de datos en forma de tablas y grficas. Esta comprende
cualquier actividad relacionada con los datos y est diseada para resumir o describir los
mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya ms all
de los datos, como tales.

Estadstica Inferencial:
Se deriva de muestras, de observaciones hechas slo acerca de una parte de un conjunto
numeroso de elementos y esto implica que su anlisis requiere de generalizaciones que van
ms all de los datos. Como consecuencia, la caracterstica ms importante del reciente
crecimiento de la estadstica ha sido un cambio en el nfasis de los mtodos que describen a
mtodos que sirven para hacer generalizaciones. La Estadstica Inferencial investiga o analiza
una poblacin partiendo de una muestra tomada.

Prof. Willer David Chanduv Puicn

Pgina 3

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Mtodo Estadstico
El conjunto de los mtodos que se utilizan para medir las caractersticas de la informacin, para
resumir los valores individuales, y para analizar los datos a fin de extraerles el mximo de informacin,
es lo que se llama mtodos estadsticos. Los mtodos de anlisis para la informacin cuantitativa se
pueden dividir en los siguientes seis pasos:

Definicin
del
problema

Recopilacin
de la
informacin
informacin
existente

Anlisis

Presentacin
Presentacin

Clasificacin
Clasificacin

Errores Estadsticos Comunes


Al momento de recopilar los datos que sern procesados se es susceptible de cometer errores, as como
durante los cmputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la
digitacin y que no son tan fcilmente identificables.
Algunos de estos errores son:
Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a
estudiar un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir
en la recopilacin y en el anlisis de la informacin. En estos casos se dice que hay un sesgo cuando el
individuo da mayor peso a los datos que apoyan su opinin que a aquellos que la contradicen. Un caso
extremo de sesgo sera la situacin donde primero se toma una decisin y despus se utiliza el anlisis
estadstico para justificar la decisin ya tomada.
Datos no comparables: el establecer comparaciones es una de las partes ms importantes del anlisis
estadstico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean
comparables.
Prof. Willer David Chanduv Puicn

Pgina 4

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Proyeccin descuidada de tendencias: la proyeccin simplista de tendencias pasadas hacia el futuro es


uno de los errores que ms ha desacreditado el uso del anlisis estadstico.
Muestreo Incorrecto: en la mayora de los estudios sucede que el volumen de informacin disponible
es tan inmenso que se hace necesario estudiar muestras, para derivar conclusiones acerca de la
poblacin a que pertenece la muestra. Si la muestra se selecciona correctamente, tendr bsicamente
las mismas propiedades que la poblacin de la cual fue extrada; pero si el muestreo se realiza
incorrectamente, entonces puede suceder que los resultados no signifiquen nada.
TRMINOS BSICOS DE ESTADSTICA
POBLACIN Y MUESTRA
Puesto que la estadstica se ocupa de una gran cantidad de datos, en primer lugar, se debe definir de
cules datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio
estadstico se llama poblacin.
No debe confundirse la poblacin en sentido demogrfico y la poblacin en sentido estadstico.
La poblacin en sentido demogrfico es un conjunto de individuos (todos los habitantes de un pas,
todas las ratas de una ciudad), mientras que una poblacin en sentido estadstico es un conjunto de
datos referidos a determinada caracterstica o atributo de los individuos (las edades de todos los
individuos de un pas, el color de todas las ratas de una ciudad).
Incluso una poblacin en sentido estadstico no tiene porqu referirse a muchos individuos. Una
poblacin estadstica puede ser tambin el conjunto de calificaciones obtenidas por un individuo a lo
largo de sus estudios universitarios.
En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales, segn
que correspondan a muchas personas o a una sola, y tambin segn que hayan sido recolectados en un
instante de tiempo determinado, o bien a lo largo del tiempo.
Los datos de la totalidad de una poblacin pueden obtenerse a travs de un censo. Sin embargo, en la
mayora de los casos no es posible hacerlo por razones de esfuerzo, tiempo y dinero, razn por la cual
se extrae, de la poblacin, una muestra, mediante un procedimiento llamado muestreo. Se llama
muestra a un subconjunto de la poblacin, y que puede o no ser representativa de la misma.
Por ejemplo, si la poblacin es el conjunto de todas las edades de los estudiantes de Lima
Metropolitana, una muestra podra ser el conjunto de edades de 2000 estudiantes de Lima
Metropolitana tomados al azar.
ESTRUCTURA DEL DATO
Prof. Willer David Chanduv Puicn

Pgina 5

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Los datos son la materia prima con que trabaja la estadstica, del mismo modo que la madera es la
materia prima con que trabaja el carpintero. As como este procesa o transforma la madera para obtener
un producto til, as tambin el estadstico procesa o transforma los datos para obtener informacin
til. Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto
est en recoger la madera o los datos ms adecuados a los objetivos del trabajo a realizar.
De una manera general, puede definirse tcnicamente dato como una categora asignada a una variable
de una unidad de anlisis. Por ejemplo, Luis tiene 1.70 metros de estatura es un dato, donde Luis
es la unidad de anlisis, estatura es la variable, y 1.70 metros es la categora asignada.
Como puede apreciarse, todo dato tiene al menos tres componentes: una unidad de anlisis, una
variable y una categora.
La unidad de anlisis es el elemento del cual se predica una propiedad y caracterstica. Puede ser una
persona, una familia, un animal, una sustancia qumica, o un objeto como una dentadura o una mesa.
La variable es la caracterstica, propiedad o atributo que se predica de la unidad de anlisis. Por
ejemplo, puede ser la edad para una persona, el grado de cohesin para una familia, el nivel de
aprendizaje alcanzado para un animal, el peso especfico para una sustancia qumica, el nivel de
salud para una dentadura, y el tamao para una mesa.
Pueden entonces tambin definirse poblacin estadstica (o simplemente poblacin) como el conjunto
de datos acerca de unidades de anlisis (individuos, objetos) en relacin a una misma caracterstica,
propiedad o atributo (variable).
Sobre una misma poblacin demogrfica pueden definirse varias poblaciones de datos, una para cada
variable. Por ejemplo, en el conjunto de habitantes de un pas (poblacin demogrfica), puede definirse
una poblacin referida a la variable edad (el conjunto de edades de los habitantes), a la variable
ocupacin (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de
condiciones de sexo de los habitantes).
La categora es cada una de las posibles variaciones de una variable. Categoras, de la variable sexo
son masculino y femenino, de la variable ocupacin pueden ser arquitecto, mdico, etc., y de la
variable edad pueden ser 10 aos, 11 aos, etc. Cuando la variable se mide cuantitativamente, es decir
cuando se expresa numricamente, a la categora suele llamrsela valor. En estos casos, el dato incluye
tambin una unidad de medida, como por ejemplo aos, cantidad de hijos, grados de temperatura,
cantidad de piezas dentarias, centmetros, etc. El valor es, entonces, cada una de las posibles
variaciones de una variable cuantitativa.
DATOS INDIVIDUALES Y DATOS ESTADSTICOS

Prof. Willer David Chanduv Puicn

Pgina 6

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Un dato individual es un dato de un solo individuo, mientras que un dato estadstico es un dato de una
muestra o de una poblacin en su conjunto. Por ejemplo, la edad de Juan es un dato individual,
mientras que el promedio de edades de una muestra o poblacin de personas es un dato estadstico.
Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede ser 37 aos, y el promedio de
edades de la muestra donde est incluido Juan es 23 aos. Por esta razn un dato estadstico nada dice
respecto de los individuos, porque solamente describe la muestra o poblacin.
Los datos estadsticos que describen una muestra suelen llamarse estadsticos (por ejemplo, el
promedio de ingresos mensuales de las personas de una muestra), mientras que los datos estadsticos
descriptores de una poblacin suelen llamarse parmetros (por ejemplo, el promedio de ingresos
mensuales de las personas de una poblacin) (Kohan N, 1994:143).
LA MEDICIN
Los datos se obtienen a travs un proceso llamado medicin. Desde este punto de vista, puede definirse
medicin como el proceso por el cual asignamos una categora (o un valor) a una variable, para
determinada unidad de anlisis. Ejemplo: cuando decimos que Martn es varn, estamos haciendo una
medicin, porque estamos asignando una categora (varn) a una variable (sexo) para una unidad de
anlisis (Martn).
A veces se ha definido medir como comparar, lo cual puede referirse a diversos tipos de comparacin:
1) comparar una cantidad con otra tomada como unidad Sentido clsico de comparacin); 2) comparar
dos categoras de una misma variable en el mismo sujeto y distinto tiempo; 3) comparar dos categoras
de una misma variable en distintos sujetos al mismo tiempo; y 4) categoras de variables distintas (debe
usarse puntaje estandarizado), en el mismo sujeto o en sujetos distintos.
Se pueden hacer mediciones con mayor o menor grado de precisin. Cuanto ms precisa sea la
medicin, ms informacin nos suministra sobre la variable y, por tanto, sobre la unidad de anlisis. No
es lo mismo decir que una persona es alta, a decir que mide 1,83 metros.
Los diferentes grados de precisin o de contenido informativo de una medicin se suelen caracterizar
como niveles de medicin. Tpicamente se definen cuatro niveles de medicin, y en cada uno de ellos
la obtencin del dato o resultado de la medicin ser diferente:

Prof. Willer David Chanduv Puicn

Pgina 7

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Datos de nivel nominal


En el nivel nominal de la medicin, las observaciones solamente se pueden clasificar o contar.
No existe algn orden especfico entre las clases. Para este nivel de medicin la nica
medicin posible es el conteo. Es la escala de medicin ms baja. Consiste en nombrar las
observaciones o clasificarlas en varias categoras mutuamente excluyentes y colectivamente
exhaustivas.
Mutuamente excluyente: Propiedad de un conjunto de categoras, implica que una persona,
objeto o medicin se ha de incluir en una sola categora.
Colectivamente exhaustivo: Propiedad de un conjunto de categoras que implica que cada
individuo, objeto o medicin debe aparecer en slo una categora.
Esta escala establece los grupos de acuerdo con la presencia o ausencia de un atributo o
caracterstica, se utiliza para medir variables cualitativas cuyos valores no pueden ser
ordenados de acuerdo a la intensidad, es decir, de menor a mayor. La escala nominal slo
permite hacer muy pocas operaciones estadsticas, tales como contar frecuencias. La nica
relacin que puede establecerse entre observaciones medidas en esta escala es la de igualdad (y
por lo tanto la desigualdad). Dos observaciones son iguales si estn en la misma clase.
En resumen, los datos de nivel nominal tienen las siguientes propiedades:
1. Las categoras para los datos son mutuamente excluyentes y colectivamente exhaustivas.
2. Las categoras para los datos no tienen un orden lgico.
Datos de nivel ordinal
El siguiente nivel de datos es el nivel ordinal. Se utiliza cuando se requiere colocar datos en
orden (1ero, 2do, 3ro, etc) en relacin a cierto atributo. Las observaciones no solo difieren de
Prof. Willer David Chanduv Puicn

Pgina 8

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

categora a categora, si no que pueden clasificarse por rangos de acuerdo con algn criterio.
Las observaciones medidas en esta escala pueden ordenarse de menor a mayor y en
consecuencia no solo admite la relacin de igualdad sino adems la de "mayor que" ("menor
que").
En resumen, los datos de nivel ordinal tienen las siguientes propiedades:
1. Las categoras para los datos son mutuamente excluyentes y colectivamente
exhaustivas.
2. Dichas categoras para los datos se clasifican por intervalos, o se ordenan de acuerdo
con las caractersticas particulares que poseen.
Datos de nivel de intervalo
El nivel de intervalo de la medicin es el siguiente nivel en orden ascendente. Incluye todas las
caractersticas del nivel ordinal, pero, adems, la diferencia entre los valores tiene un tamao
constante. Las observaciones en esta escala no slo pueden ordenarse, sino que pueden,
adems, definirse una unidad de distancia (si bien arbitraria) entre ellos. Esto significa que
requiere de un cero. Es indispensable que exista un cero en la escala. El cero y la unidad de
distancia son arbitrarios y, en particular, el cero no corresponde a una caracterstica fsica de
las unidades de medida. El cero no implica que haya carencia absoluta de la (caracterstica)
cantidad que se est midiendo.
En resumen, los datos de nivel de intervalo tienen las siguientes propiedades:
1. Las categoras para los datos son mutuamente excluyentes y colectivamente exhaustivas.
2. Las categoras en cuestin estn ordenadas de acuerdo con la cantidad de la caracterstica
que poseen.
3. Diferencias iguales en la caracterstica se presentan por diferencias iguales en la medicin.
Datos de nivel de razn
Es la escala ms fuerte, dado que usa un sistema numrico en el que el cero es un valor que
indica ausencia de la caracterstica que se est midiendo. Permite clasificar y ordenar. Los
intervalos son iguales. Se pueden realizar operaciones aritmticas como la multiplicacin y
divisin. La diferencia entre dos valores es importante y de magnitud definida. Permite el
clculo de la media geomtrica, el clculo del coeficiente de variacin y las pruebas que
requieren del conocimiento del punto cero de la escala.
Las propiedades del nivel de razn son:
1. Las categoras de los datos son mutuamente excluyentes y colectivamente exhaustivas.
2. Dichas categoras tienen un intervalo u orden de acuerdo con la cantidad de la categora
que poseen.
3. Diferencias iguales en la caracterstica estn representadas por diferencias iguales en los
nmeros que se han asignado a las categoras mencionadas.
El punto o valor cero indica ausencia de la caracterstica.
Prof. Willer David Chanduv Puicn

Pgina 9

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Desde luego hay variables que pueden medirse en ms de un nivel, segn el propsito de
medicin. Por ejemplo la variable antigedad en la empresa, es una variable medida en
escala de razn (de 0 a k das); pero tambin podra ser medida en escala ordinal, con
categoras: Mucha antiguedad / Regular antigedad / Poca antigedad

NIVELES
DE LOS
DATOS

NOMINAL

ORDINAL

INTERVAL
O

RAZN

SLO
CLASIFICA
LOS DATOS

ORDENA LOS
DATOS POR
LAS
JERARQUAS

LAS
DIFERENCIAS
ENTRE LOS
VALORES
TIENE
SIGNIFICADO

EL CERO Y EL
COCIENTE
ENTRE
VALORES
TIENEN
SIGNIFICADO

CARACTERSTICAS DE UNA DISTRIBUCIN DE FRECUENCIAS


MEDIDAS DE POSICIN CENTRAL
Media aritmtica

Es la medida de tendencia central ms conocida y de mayor uso, comnmente la llaman promedio


aritmtico o simplemente promedio, pero todas las tendencia central son promedios. Se define como la
suma de todas las observaciones dividida entre el nmero de observaciones, es decir,

Prof. Willer David Chanduv Puicn

Pgina 10

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Ejemplo 1
Se han obtenido la cantidad de fsforo (en mg / g de hoja) en hojas secas:

Xi: 8.15, 8.26, 8.40, 8.58 y 8.60

La media aritmtica es:

X
X

41.91
8.398 mg / g
5

Ejemplo 2
Se dispone del tiempo de vida (en meses) de dos especies de pjaros en cautiverio:
Especie A
Xi (meses): 34 36 37 39 40 41 42 43 59
Especie B
Xi (meses): 35 36 39 41 39 43 45 44 46 45

Se observa que la especie A tiene menor esperanza de vida en cautiverio. No olvide que la media
aritmtica tiene la misma unidad de medida como la tienen las observaciones individuales.

Observaciones

Prof. Willer David Chanduv Puicn

Pgina 11

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

a) La media aritmtica se emplea en datos cuantitativos o numricos; en cambio no debe usarse


en datos ordinales debido a la naturaleza arbitraria de la escala.
b) La media es sensible a valores extremos o discordantes y la presencia de ellos en un conjunto
de datos hacen que la media pierda su condicin de ser representativa del conjunto
c) Es la medida de tendencia central que mejor describe a un conjunto de datos cuando la
distribucin es simtrica.
d) Se expresa en las mismas unidades de medida en que estn dados los datos originales

La Mediana
La mediana de un conjunto de datos es la observacin central, es decir, la mitad de las
observaciones son menores o iguales que la mediana y la otra mitad son mayor o iguales.
Clculo de la mediana

a)

Se ordenan los datos de menor a mayor (o viceversa)

b)

Encontrar el valor que est ocupando el centro. Casos:

1)

En un nmero impar de observaciones la mediana es el valor que ocupa el centro. En


el ejemplo 2, especie A, la mediana es Md = 40 meses.

2)

En un nmero par de observaciones se define como mediana a la media aritmtica de


los dos valores centrales, por ejemplo en la especie B de aves en cautiverio la

40 41
2
mediana es la semisuma de la quinta y sexta observacin, es decir, M d =

40.5 meses.
Observaciones
a) La mediana no es sensible a los valores extremos, es decir, stos no tienen efectos
importantes sobre la mediana ( no la modifican).
b) La mediana puede usarse con valores ordinales debido a que para su clculo no se usa
los valores reales de las observaciones si no se ubica el valor central.
Prof. Willer David Chanduv Puicn

Pgina 12

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

c) Se recomienda como representativa del conjunto de datos cuando existen valores


extremos (distribucin asimtrica o sesgada).
d) Al igual que la media aritmtica, se expresa en las mismas unidades de medida en que
estn dados los datos originales.

La Moda
La moda o modo de un conjunto de observaciones se define como la observacin que ocurre con
mayor frecuencia. Tal vez es mejor definir a la moda como una medicin de mayor concentracin. En
algunas distribuciones de frecuencia puede haber ms de uno de esos puntos de mayor concentracin
(moda), sin embargo esos puntos pueden no tener la misma frecuencia. As por ejemplo, una muestra
consiste de los siguientes datos en mm.
4, 4, 5, 7,7, 8, 8, 9, 9, 9, 9, 10, 11, 12, 12, 12, 12, 12, 13, 13, 14.
En este conjunto de datos observamos dos modas locales 9 y 12.
La Media Geomtrica
Es otra medida de tendencia central, no se usa tan a menudo como las anteriores. En general se usa
cuando los datos estn medidos en una escala logartmica. Se emplea en microbiologa para calcular
ttulos desilusin promedio y para promediar cantidades en forma de progresiones y tasas de
crecimiento.
La media geomtrica cuyo smbolo que utilizaremos es X g se define como la raz ensima del producto
de las observaciones positivas. En smbolos:
Sean Xi > 0 ; X1, X2, .., Xn
n observaciones positivas, entonces la media geomtrica es:
n

( x1 )( x 2 ).......( x n )

Xg =

RELACION ENTRE LA MEDIA, MEDIANA Y MODA


La diferencia entre los valores de la Media, Mediana y Moda permite saber la forma de la curva de
frecuencias en trminos de asimetra. Se dan tres casos:
Prof. Willer David Chanduv Puicn

Pgina 13

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Caso 1:
Para una distribucin Unimodal simtrica. El valor de la Media, Mediana y Moda son iguales.

x =Me=Mo

Caso 2:

Para una distribucin asimtrica positiva, la Media es mayor de las tres y la Mediana es mayor
que la Moda, pero no mayor que la Media.
x > Me> Mo
Caso 3:
Para una distribucin asimtrica negativa, la Media es el menor valor de las tres, la Mediana es mayor
que la Media, pero menor que la Moda.

x < Me< Mo

Qu medida de tendencia central usar?


Obtenida la informacin, (las observaciones) la pregunta es qu medida de tendencia central es mejor
para usar con los datos obtenidos. La respuesta est condicionada a dos factores: la escala de medicin
(numrica u ordinal) y la forma de la distribucin de las observaciones (simtrica o asimtrica). Esta
informacin ayuda a elegir la medida de tendencia central apropiada.
Si existen valores discrepantes o discordantes en una distribucin se dice que la distribucin es
asimtrica o sesgada, as tenemos: si los valores discordantes son pequeos la asimetra es o la
izquierda o negativa. Si slo existen unos cuantos valores muy grandes comparados con el resto de los
datos, la asimetra es a la derecha o positiva. Una regla para deducir la asimetra de la distribucin es
comparando la media y la median, como sigue:
a) Si la media y la mediana son iguales, la distribucin es simtrica.
b)

Si la media es mayor que la mediana, la distribucin est sesgada o asimtrica a la


derecha.

Prof. Willer David Chanduv Puicn

Pgina 14

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

c) Si la media es menor que la mediana, entonces la distribucin est sesgada o asimtrica


a la izquierda.

Las siguientes recomendaciones para elegir la medida de tendencia central ms adecuada:


i) La media se usa para datos numricos y distribuciones simtricas (no sesgadas).
ii) La mediana se usa en datos ordinales o si la distribucin es sesgada.
iii) El modo se usa cuando se desea resaltar el dato ms frecuente.
iv) La media geomtrica se usa en observaciones medidas en una escala logartmica.
MEDIDAS DE POSICIN NO CENTRAL
CUANTILES
Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la
distribucin en partes, de tal manera que cada una de ellas contiene el mismo nmero de frecuencias.
Los cuantiles ms conocidos son:
a. Cuartiles

( Qi )

Son valores de la variable que dividen a la distribucin en 4 partes, cada una de las cuales
engloba el 25 % de las mismas. Se denotan de la siguiente forma:
que deja a su izquierda el 25 % de los datos;
izquierda el 50% de los datos, y
datos. (
b. Deciles

es el segundo cuartil que deja a su

Q3 es el tercer cuartil que deja a su izquierda el 75% de los

Q2=Me )

( Di )

Prof. Willer David Chanduv Puicn

Q2

Q1 es el primer cuartil

Pgina 15

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Son los valores de la variable que dividen a la distribucin en las partes iguales, cada una de
las cuales engloba el 10 % de los datos. En total habr 9 deciles. (Q 2 = D5 = Me)
c. Centiles o Percentiles

( Pi )

Son los valores que dividen a la distribucin en 100 partes iguales, cada una de las cuales
engloba el 1 % de las observaciones. En total habr 99 percentiles. (Q 2 = D5 = Me = P50)

MEDIDAS DE DISPERSIN O VARIABILIDAD


Las medidas de dispersin permiten estimar la representatividad de un promedio (media o mediana),
en ese sentido es necesario cuantificar la dispersin o variabilidad de los datos alrededor del
promedio correspondiente. Las principales medidas que calculan la dispersin son: la varianza, la
desviacin estndar y el coeficiente de variacin. Todas ellas miden desviaciones respecto a la media,
pero en tanto que, las dos primeras proporcionan desviaciones absolutas, la ltima proporciona
desviaciones en trminos relativos a la media.

Varianza
La varianza muestral (s2) se define como:

s2 =

donde xi son los valores de la variable X,

( xi X ) 2
n 1

es la media aritmtica muestral y n es el tamao de la

muestra. Como vemos, la varianza viene a ser la media aritmtica de las distancias de cada uno de los

datos con respecto a la media

; pero elevados al cuadrado, en ese sentido, la magnitud de s 2 medir

la mayor o menor dispersin de los valores de la variable respecto a la media aritmtica; es decir,
mostrar el grado de representatividad de dicho promedio, de tal forma que a mayor valor de s 2 la
dispersin ser mayor y la media aritmtica no ser representativa (lo contrario suceder cuando s 2 sea
pequea).
Prof. Willer David Chanduv Puicn

Pgina 16

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

s A2
Ejemplo: En el ejemplo 2, la varianza del tiempo de vida de la especie A es

= 186.2760 meses2 y de

s B2
la especie B es

= 12.96 meses2. Con estos resultados deducimos que hay menor dispersin en los

datos del tiempo de vida correspondiente a la especie B comparada con la especie A, y por lo tanto su
media aritmtica (tiempo medio de vida) ser mejor representativa. Adems, en la especie A existe un
valor atpico que es el dato 79 meses, es por eso que la varianza aumenta.
Desviacin Estndar o Tpica (s)
Un inconveniente de la varianza radica en que sus unidades de medida corresponde al de la variable
pero, elevadas al cuadrado, lo cual puede dificultar su interpretacin. Por esta razn se define una
medida de dispersin la cul si est expresada en las mismas unidades de medida que la variable que se
est analizando. Esta medida de dispersin se conoce con el nombre de desviacin estndar, es decir:

s s
2

(x

X )2

n 1

En el ejemplo del tiempo de vida en cautiverio de las dos especies, las correspondientes desviaciones
estndar son:

SA = 13.65 meses y

SB = 3.60 meses.

No obstante la ventaja de interpretacin que la desviacin estndar supone respecto a la varianza, sin
embargo, es imposible efectuar comparaciones entre distribuciones de frecuencia cuando las
dimensiones de las variables no coinciden debido precisamente a que las distribuciones no poseen
idnticas unidades de medida. Este inconveniente da lugar a nuevas medidas de dispersin o
variabilidad relativa (adimensionales), entre ellas, el coeficiente de variacin.

Uso de la Desviacin estndar


En el uso de la Desviacin Estndar se considera que, para una distribucin normal de frecuencias, el
68% de las condiciones se encuentran a no ms de una desviacin estndar de la media y que

Prof. Willer David Chanduv Puicn

Pgina 17

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

aproximadamente 95% de las mediciones se encuentran a no ms de dos desviaciones estndar de la


media.
Regla emprica:
Tomando como referencia la curva de la distribucin normal, se espera que de un conjunto de
observaciones un porcentaje de ellas caiga en el intervalo

x + ks

, donde

k =1,2,3

Entre

x + 1 s

se encuentra aproximadamente el 68,27% de las observaciones.

Entre

x + 2 s

se encuentra aproximadamente el 95,45% de las observaciones.

Entre

x + 3 s

se encuentra aproximadamente el 99,73% de las observaciones.

Entre

x + 4 s

se encuentra aproximadamente el 99,99% de las observaciones.

Prof. Willer David Chanduv Puicn

Pgina 18

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Coeficiente de Variacin (C.V.)


Se define como la relacin por cociente entre la desviacin estndar y la media aritmtica, expresado
en porcentaje, es decir:

C.V .

s
x
100%

Como, tanto s como x estn expresadas en las mismas unidades de medida, el C.V. resulta un indicador
adimensional. Adems expresa qu tanto por ciento es la desviacin estndar de la media aritmtica.
Ejemplo 1
En un grupo de personas, el peso promedio fue de 145 libras con una desviacin estndar de 7 libras; la
estatura promedio fue 67 pulgadas con desviacin estndar de 5 pulgadas. La pregunta es: en cul
caracterstica el grupo es ms variable (heterogneo)?. En este caso no podemos comparar paso y
estatura (caractersticas expresadas en diferentes unidades de medida). Para dar respuesta a la pregunta
calculamos el coeficiente de variacin:
Peso

Estatura

7
4.8%
145

5
7 .5 %
67

C.V. =

C.V. =

Por tanto decimos que en estatura el grupo es ms heterogneo.


Ejemplo 2
Consideremos las siguientes muestras de los pesos de hombres de 25 aos y de nios de 11 aos

Si observamos las desviaciones estndar, aparentemente los dos grupos tienen la misma dispersin o
variabilidad en peso, sin embargo:
Prof. Willer David Chanduv Puicn

Pgina 19

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

4 .5
(100) 6.82%
66
C.VHombres =

4.5
(100) 12.5%
36
C.VNios =
Los pesos de los nios son relativamente ms variables (heterogneos) que los pesos de los adultos.

Recorrido Intercuartlico

Cuando la distribucin es asimtrica se utiliza como indicador de la dispersin de los datos el recorrido
intercuartlico que se define como la diferencia entre el tercer y primer cuartil, en smbolos:

RIQ Q3 Q1
Recorrido, Rango o Amplitud Total

Es la medida de dispersin que muy poco se usa porque no usa toda la informacin proporcionada por
la muestra para calcular su valor, por lo tanto puede inducir a error. Se define como la diferencia entre
el mximo y el mnimo valor de la distribucin de datos.

R X max X min
Forma de la distribucin
Una vez iniciado el anlisis estadstico de sinterizacin de la informacin, para lo cual hemos
estudiado las medidas de posicin y dispersin de la distribucin de una variable, necesitamos
conocer ms sobre el comportamiento de la misma. No podemos basar nuestras conclusiones
nicamente en expresiones que vengan dadas en trminos de medidas de posicin y dispersin. Si
bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio, para lo
cual las medidas de posicin son nuestro mejor instrumento, no debemos proceder a una
Prof. Willer David Chanduv Puicn

Pgina 20

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

intrepretacin que implique un comportamiento de todos los elementos del colectivo uniformemente
constante e igual a la medida de posicin en cuestin con un error dado por la correspondiente
medida de dispersin. Este error o disparidad se hace ms ostensible al analizar la representacin
grfica de la distribucin. Pues bien, las medidas de forma de una distribucin se basan en su
representacin grfica, sin llegar a realizar la misma.
Las medidas de forma se clasifican en medidas de asimetra y medidas de curtosis o apuntamiento.
Las medidas de asimetra tienen como finalidad el elaborar un indicador que permita establecer el
grado de simetra (o asimetra) que presenta una distribucin, sin necesidad de llevar a cabo su
representacin grfica.
Supongamos que hemos representado grficamente una distribucin de frecuencias. Si trazamos una

x
perpendicular al eje de abscisas por

y tomamos esta perpendicular como eje de simetra, diremos

que una distribucin es simtrica si existe el mismo nmero de valores a ambos lados de dicho eje,

x
equidistantes de

x
dos a dos y tales que cada par de valores equidistantes a

tengan la misma

frecuencia. En caso contrario, las distribuciones sern asimtricas.


Las medidas de curtosis estudian la distribucin de frecuencias en la zona central de la misma. La
mayor o menor concentracin de frecuencias alrededor de la media y en la zona central de la
distribucin dar lugar a una distribucin ms o menos apuntada. Por esta razn a las medidas de
curtosis se les llama tambin de apuntamiento o concentracin central. Las medidas de curtosis se
aplican a distribuciones campaniformes, es decir, unimodales simtricas o con ligera asimetra Para
estudiar la curtosis de una distribucin es necesario definir previamente una distribucin tipo, que
vamos a tomar como modelo de referencia. Esta distribucin es la Normal, que corresponde a
fenmenos muy corrientes en la naturaleza, y cuya representacin grfica es una campana de Gauss.
Tomando la normal como referencia, diremos que una distribucin puede ser ms apuntada que la
normal (es decir, leptocurtica) o menos apuntada (es decir, platicrtica).
A la distribucin normal, desde el punto de vista de la curtosis, se le llama mesocrtica.
Con la curtosis se estudia la deformacin, en sentido vertical, respecto a la normal, de una distribucin.
A continuacin se definen las medidas de asimetra ms comunes, entre las que destacan las siguientes:

Prof. Willer David Chanduv Puicn

Pgina 21

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Coeficiente de asimetra de Fisher: Ahora se intenta buscar una medida que recoja la simetra o
asimetra de una distribucin. Si la distribucin es simtrica, el eje de simetra de su representacin
grfica ser una recta paralela al eje de ordenadas, que pasa por el punto cuya abscisa es la media
aritmtica. Por ello, cuando la distribucin es asimtrica, referiremos los valores de la distribucin a
este promedio. Si una distribucin es simtrica. Existe el mismo nmero de valores a la derecha que a

x
la izquierda de

, y por tanto el mismo nmero de desviaciones con signo positivo que con signo

negativo, siendo la suma de desviaciones positivas igual a la suma de las negativas. Podemos partir,

x
pues, de las desviaciones (xi-

) elevadas a una potencia impar para no perder los signos de las

desviaciones.
Lo ms sencillo sera tomar como medida de asimetra el promedio de estas desviaciones, elevadas a la
potencia impar ms simple (que es tres), es decir, tomaramos como medida de asimetra el momento
de orden tres centrado en la media. Pero, de hacer esto, esta medida vendra expresada en las mismas
unidades que las de la variable, pero elevadas al cubo, por lo que no es invariante ante un cambio de
escala. Para conseguir un indicador adimensional, debemos dividir la expresin anterior por una
cantidad que venga en sus mismas unidades de medida. Esta cantidad es el cubo de la desviacin
tpica, obtenindose as el coeficiente de asimetra de R. A. Fisher, cuya expresin es:

g1

1
N

m3

3 1
N

(x
i 1

(x
i 1

x ) 3 ni
3/ 2

x ) ni
2

Si g =0 la distribucin es simtrica, si g >0 la distribucin es asimtrica positiva (a derecha), y si g <


0 la distribucin es asimtrica negativa (a izquierda). La distribucin es asimtrica a derecha o positiva
cuando la suma de las desviaciones positivas de sus valores respecto de la media es mayor que la suma
de las desviaciones con signo negativo (la grfica de la distribucin tiene ms densidad a la derecha de
la media). En caso contrario, la distribucin es asimtrica a la izquierda o negativa.

Prof. Willer David Chanduv Puicn

Pgina 22

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

Coeficiente de asimetra de Fisher estandarizado: Para

N >150 el coeficiente de asimetra es

asintticamente normal de media cero y varianza 6/N. Este hecho nos lleva a considerar el coeficiente
de asimetra estandarizado cuya expresin es:

gs

g1
6
N

Este coeficiente es asintticamente normal (0,1).


Coeficiente de asimetra de Pearson: Karl Pearson propuso para distribuciones campaniformes,

x
unimodales y moderadamente asimtricas el coeficiente definido como

Ap = (

- Mo) /

, donde

x
Mo es la moda. Como en una distribucin campaniforme simtrica.

= Mo = Me, si la distribucin es

x
asimtrica positiva o a derechas.

x
, se desplaza a la derecha de la moda, y por tanto,

- Mo > 0. En

x
el caso de distribucin asimtrica negativa la media se sita por debajo de Mo, por lo que el valor

x
Mo < 0. La desviacin tpica que aparece en el denominador no modifica el signo de la diferencia
- Mo y sirve para eliminar las unidades de medida de dicha diferencia. As tendremos que si Ap = 0 la
distribucin es simtrica, si Ap > 0 la distribucin es asimtrica positiva y si Ap < 0 la distribucin es
asimtrica negativa. Tambin Pearson comprob empricamente para

este tipo de distribuciones que

se cumple 3(x - Me) .r - Mo (la mediana siempre se sita entre la media y la moda en las
distribuciones moderadamente asimtricas). Por esta razn, algunos autores utilizan como coeficiente
de asimetra de Pearson el valor:

Ap 3(

x
- Me)

Coeficiente de asimetra de Bowley: Est basado en la posicin de los cuartiles y la mediana, y viene
dado por la expresin Ab = (C3 + C 1 - 2Me) / (C3 + C1). Se cumple que si Ab = 0 la distribucin es
simtrica, si

Ab > 0 la distribuci6n es asimtrica positiva y si Ab < 0 la distribucin es asimtrica

negativa. Cl y C3 son el primer y tercer cuartil respectivamente.

Prof. Willer David Chanduv Puicn

Pgina 23

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

El coeficiente absoluto de asimetra: Est basado tambin en la posicin de los cuartiles y la


mediana, y viene dado por la expresin:
A = [(C3 -C2) - (C2 -C 1)] / S = (C3 + C 1 - 2C2) / S = C3 + C 1 - 2Me /S
Si A=0 la distribucin es simtrica, si A >0 la distribucin es asimtrica positiva y si A<0 la
distribucin es asimtrica negativa. C1, C2 y C3 son los cuartiles de la distribucin.

Una vez presentadas las medidas de asimetra, a continuacin se definen las medidas de curtosis ms
comunes, entre las que destacan las siguientes:
4

Coeficiente de curtosis: En la distribucin normal se verifica que m = 3

de orden 4 respecto a la media y

siendo m

el momento
2

la desviacin tpica. Si consideramos la expresi6n g = m /

3, su valor ser cero para la distribucin normal. Por ello, como coeficiente de apuntamiento o curtosis
se utiliza la expresin:

1
N

m
g2 4 3
4
1
N

(x

x ) 4 ni

i 1

(x
i 1

x ) 2 ni

Una distribucin es:


mesocrtica (apuntamiento igual al de la normal) cuando g2 = 0,
leptocrtica (apuntamiento mayor que el de la normal) si g2 > 0,
platicrtica (apuntamiento menor que el de la normal) si g2 < 0.

El coeficiente de curtosis estandarizado: Para N > 150 el coeficiente de curtosis es asintticamente


normal de media cero y varianza 24/N. Este hecho nos lleva a considerar el coeficiente de curtosis
estandarizado cuya expresin es:

Prof. Willer David Chanduv Puicn

Pgina 24

ANLISIS DESCRIPTIVO DE DATOS


CURSO: MTODOS ESTADSTICOS

ENEI

g ks

g2
6
N

Este coeficiente es asintticamente normal (0,1).


Valores extremos
Son valores que se alejan del conjunto de datos.
Regla para identificar valores o datos extremos
Vamos a definir una observacin

xi

como extrema si:

x i<Q 1 1.5(Q3Q 1 )

Prof. Willer David Chanduv Puicn

Pgina 25

x i>Q 3 +1.5(Q 3Q 1)

También podría gustarte