Está en la página 1de 13

En el primer lugar, la Estadstica Descriptiva tiene por objeto la clasificacin y resumen

de la informacin contenida en los datos (extraer la informacin de los datos), ya sean de censos
(toda la poblacin) o muestras (subconjunto de la poblacin), como por ejemplo en las estadsticas
oficiales comentadas anteriormente.

DEPARTAMENTO DE ESTADSTICA E I.O.


GRADO EN CIENCIAS AMBIENTALES
2014-2015

De este modo, para el proceso de extraccin de la mxima informacin contenida en los


datos, se utiliza una serie de medidas con el objetivo de establecer el comportamiento de los
mismos, usualmente denominadas medidas descriptivas o estadsticos, las cuales se clasifican en
tres tipos fundamentales, dependiendo de la informacin que pretenden determinar o sintetizar:
medidas de posicin o localizacin, medidas de dispersin y medidas de forma.
Las medidas de localizacin tienen por objetivo extraer la informacin sobre la posicin y
localizacin de los datos.
Las medidas de dispersin pretenden establecer la concentracin de los datos a travs de
la variabilidad y dispersin de los mismos con respecto a las medidas de localizacin.
Las medidas de forma intentan determinar el comportamiento de la distribucin de
frecuencias de los datos.

ESTADSTICA
Bloque I: Estadstica descriptiva
Tema 1. Estadstica descriptiva univariante.
1. Introduccin y definiciones bsicas.
2. Tablas de frecuencias y representaciones grficas de un conjunto de datos.
3. Medidas descriptivas de un conjunto de datos de una variable.

Adems de estas medidas descriptivas que sintetizan la informacin contenida en los datos
sobre una caracterstica particular, la Estadstica Descriptiva incluye una serie de
representaciones de los datos, grficas descriptivas, con el fin de facilitar la interpretacin de las
medidas anteriores mediante una imagen. Asimismo, cuando estamos interesados en analizar dos
o ms caractersticas sobre la poblacin, disponemos de medidas descriptivas para extraer la
informacin de los datos sobre sus relaciones y dependencia.

1. Introduccin y definiciones bsicas.


1.1.

Introduccin

El concepto de estadstica se deriva del trmino estado, y originalmente se asoci a la


tarea de recopilar datos de inters para el estado (datos econmicos, demogrficos, militares, ...),
es decir, lo que hoy en da se conoce como censos.
No obstante, con el crecimiento de los estados y sus poblaciones, surgi la necesidad de
procesar y resumir toda la informacin contenida en los censos para su manejo por parte de los
estadistas, lo que aument la utilidad de dichos censos y provoc la evolucin del trmino
estadstica, siendo una de las ramas de la estadstica en la actualidad el tratamiento y extraccin
de la informacin contenida en el conjunto de datos recopilados.
Aunque en la actualidad, esto supone una parte de todo lo que engloba la estadstica,
como rama de las matemticas, no cabe duda del gran inters que suscitan las estadsticas de la
Organizacin Mundial de la Salud, de la Unin Europea y del Instituto Nacional de Estadstica, los
censos de poblacin e ndices sobre el estado econmico autonmico, nacional y europeo,
llamadas estadsticas oficiales.
En general, al igual que todos los campos cientficos, la estadstica ha experimentado un
gran impulso y desarrollo en el ltimo siglo, lo que hace difcil establecer una definicin concreta
de esta rama de las matemticas, por ejemplo, podramos decir que:
La estadstica es el conjunto de las tcnicas de recopilacin de datos, los mecanismos
para clasificar y resumir la informacin, y los mtodos para extender los resultados al resto
de la poblacin
En este contexto, se llama poblacin al conjunto de todos los individuos objeto de estudio,
y muestra a un subconjunto de la poblacin (subconjunto de individuos sobre los que se realiza el
experimento).
A partir de este concepto, la Estadstica constituye hoy en da una ciencia imprescindible
para el desarrollo de la mayora de las ciencias. De este modo, la Estadstica suele dividirse en
dos ramas: Estadstica Descriptiva y Estadstica Inferencial.

Cabe sealar, que cuando se analizan muestras (subconjunto de la poblacin), estas


medidas descriptivas intentan exprimir los datos de una muestra para obtener la informacin que
contienen, como es el caso de las estadsticas oficiales mencionadas en el apartado anterior, y los
resultados que proporcionan corresponden a la propia muestra, aunque el mal uso de estas
estadsticas est ampliamente extendido en la sociedad al aceptarlas como resultados vlidos
sobre toda la poblacin obviando la componente inferencial de este proceso.
La Estadstica Inferencial corresponde a la extrapolacin de la informacin contenida en
un subconjunto de la poblacin (inferir a toda la poblacin). Por ejemplo, un equipo mdico est
investigando un tratamiento para analizar su eficiencia, pero slo dispone de un nmero limitado
de pacientes para aplicar el tratamiento de forma experimental y estudiar los procesos de
recuperacin, con el objetivo final de establecer, de manera fiable, la eficiencia del tratamiento
para todos los pacientes. La Estadstica Inferencial es el proceso de establecer la eficiencia del
tratamiento para todos los pacientes a partir del ensayo experimental sobre un subconjunto de
ellos.
De este modo, la Inferencia Estadstica es el conjunto de los mtodos que permiten
trasladar los resultados de una muestra a la poblacin de manera fiable (midiendo la incertidumbre
o acierto de los resultados, decisiones y sus conclusiones).
Para ello, se utilizan una serie de tcnicas basadas en medidas de extraccin de la
informacin contenida en la muestra, que se clasifican en dos tipos, estimacin y contraste de
hiptesis, segn los objetivos que se persiguen en el proceso de inferencia. En este enfoque, a las
medidas de extraccin en general se les llama estadsticos, y en particular, dependiendo de la
tcnica inferencial, estimadores y estadsticos del contraste, respectivamente.
Los estimadores son funciones de la muestra que pretenden proporcionar estimaciones
(aproximaciones) de alguna caracterstica particular de la poblacin de inters en el problema o
experimento; dichos estimadores pueden ser tanto paramtricos como no paramtricos, segn el
nivel de generalizacin de la caracterstica a estimar, como por ejemplo estimar el modelo de
probabilidad de una variable (no paramtrico) o estimar el parmetro (media, varianza, ...) que
determina unvocamente dicho modelo.

Adems, cabe distinguir entre los estimadores puntuales y los estimadores por intervalos.
En primer lugar, se llama estimador puntual cuando el objetivo consiste en obtener un valor nico
(estimacin); en tal caso, se suele requerir ciertas propiedades del estimador con el fin de que la
estimacin que proporciona no presente grandes desviaciones de la realidad. Por otro lado, se
llama estimador por intervalos cuando proporciona un intervalo de valores, lo que permite realizar
la estimacin con una determinada probabilidad de acierto, es decir, que realmente el valor se
encuentre en dicho intervalo.

cul es el peso a partir del que se encuentra el 10% de los animales de mayor peso?

Para poder utilizar esta informacin de forma eficaz, con vistas a su posterior utilizacin, la
estadstica descriptiva utiliza, bsicamente, tres herramientas: el agrupamiento de los datos en
tablas de frecuencias, la representacin grfica de los datos mediante histogramas y otros
grficos, y la reduccin de los datos mediante nmeros denominados estadsticos.
Para agilizar la exposicin inmediata, utilizaremos el trmino muestra para designar tanto
la lista de los pesos de las vacas del ejemplo anterior, como cualquier otra coleccin de datos
(reservando la definicin precisa para el apartado 2). Una forma cmoda, entonces, de escribir
una muestra, que nos sirva para cualquier tipo de datos, es
(x1,x 2 ,....,xi ,.....,xn ) ,

Por ltimo, los contrastes de hiptesis tienen como objetivo principal la toma de decisiones
sobre una condicin de la poblacin, tanto del tipo paramtrico como no paramtrico. En este
proceso se decide que la condicin es cierta o falsa a partir de la informacin extraida de la
muestra mediante un estadstico (estadstico del contraste), y por consiguiente, cabe la posibilidad
de haber optado por una decisin errnea, por lo que el estadstico del contraste permite inferir la
informacin suministrada por la muestra a una decisin sobre la poblacin junto con una medida
de fiabilidad o seguridad de dicha decisin.

simo, y x n el situado en el ltimo lugar.

Como hemos comentado algunas estadsticas oficiales de inters para la sociedad en


general, basadas en estadsticos descriptivos que resumen y clasifican la informacin de los
censos, por concretar algunas de ellas: las estadsticas sanitarias y epidemiolgicas, los ndices o
niveles de riqueza, de precio al consumo, poblacin activa, ... Adems de estas y otras
aplicaciones similares, la Estadstica Descriptiva se utiliza para explorar los datos de una muestra
como un primer anlisis estadstico en cualquier estudio estadstico.

Utilicemos, tambin de manera informal, la nocin de clase como la de un conjunto


formado por elementos con alguna propiedad comn. Por ejemplo, en el caso 1 una clase
correspondera a todos los perros de una determinada raza; en el segundo, podramos hablar de
la clase de las empresas cuyas emisiones de CO2 a la atmsfera supera una cantidad
determinada, o, en el caso de la explotacin ganadera, una clase puede ser la formada por todas
las vacas cuyo peso est comprendido entre 250 y 350 kilogramos.

En relacin a la Estadstica Inferencial, se puede observar que en la actualidad est


considerada como el mtodo cientfico de investigacin en casi todos los campos cientficos, como
en demografa, sociologa, psicologa, educacin, historia, filologa, economa, qumica, fsica,
meteorologa, ingeniera, ..., en donde cabe destacar las ciencias de la salud, puesto que en estas
reas surgieron muchos de los problemas relacionados con los datos obtenidos en la
experimentacin y su inferencia al resto de la poblacin, lo que impuls el desarrollo de los
principales mtodos actuales de la estadstica. Adems, la amplia aplicacin de las tcnicas
estadsticas en estos campos ha dado lugar a una propia disciplina llamada Bioestadstica, que
recoge las diversas aplicaciones en biologa, medicina, veterinaria, farmacia, ...
Por ejemplo, un ambientalista es responsable del rea de anlisis de los impactos
ambientales en una ONG dedicada al estudio y denuncia de las causas de la degradacin de la
atmsfera en zonas metropolitanas. En cada situacin en la que trabaja la organizacin, el
ambientalista tiene que analizar multitud de datos procedentes de las mediciones de SO2,
Amonaco, CO2, y otros factores contaminantes, en un determinado nmero de lugares de la zona
estudiada, as como de los agentes que contaminan (particulares, empresas, explotaciones
agrcolas, etc.) En este caso, el ambientalista necesitar conocer si los niveles de SO2 son
relevantes en el incremento de las enfermedades pulmonares de las personas de una
determinada ciudad.

Veamos ahora los mtodos bsicos de trabajo de la Estadstica descriptiva.


1.2.1. Agrupamiento de los datos.
Se entiende por agrupar los datos el proceso por el cul asociamos cada dato xi a una, y
solo a una clase, de un conjunto de clases preestablecidas C1, C2, ., Ck, cada una de las cuales
no tiene elementos comunes con ninguna de las restantes.
Cuando se ha realizado el proceso con todos los elementos de la muestra, nos
encontraremos con que f1 datos se han asociado con C1, f2 se han asociado con C2, etc. En
general, el nmero fi, que indica cuantos elementos de la muestra se han asociado con la clase Ci,
se denomina la frecuencia absoluta de la clase Ci.
Podemos representar de forma sinttica el resultado del proceso mediante lo que
denominaremos una tabla de frecuencias agrupadas:
Tabla 1
Clases
Frecuencias absolutas

En resumen, un problema experimental requiere:


Ordenar y analizar grandes cantidades de datos
Buscar regularidades que permitan comprender fenmenos concretos
Realizar inferencia sobre el comportamiento de la poblacin
Encontrar modelos matemticos que expliquen las regularidades encontradas
1.2.

donde: x1 es el primer elemento de nuestra lista, x 2 es el segundo, xi el situado en el lugar i-

C1

C2

f1

f2

Ci
fi

Ck

fk

Si el veterinario del Caso 1 estuviese interesado en averiguar los tipos de perros que han
pasado por su clnica, podra identificar las clases con las razas, C1 = {dogo}, C2 = {caniche}, C3 =
{doberman}, C4 = {malts}, C5 = {pastor}, y contar el nmero de perros que hay de cada raza. Esto
le permitira construir la siguiente tabla de frecuencias:
Tabla 2

Mtodos de la estadstica descriptiva

Ejemplo 1. Supongamos que disponemos de una lista consistente en los pesos de las 5000 vacas
de una explotacin ganadera. En principio, tal lista no nos aporta ninguna informacin pertinente
sobre la totalidad de los animales, sino de cada uno individualmente. Por ejemplo, de tal lista no
se podra dar respuesta inmediata a preguntas sencillas:
qu proporcin de animales pesan menos de 200 Kg?

Clases

Pastor

Frecuencias absolutas

f1 =15

Caniche Dogo Mastn Malts Doberman Galgo Labrador


f2 =40

f3=12

f4 =30

f5 =75

f6 =15

f7=10

f8 =5

Si en lugar de por las razas estuviese interesado en el comportamiento de los pesos de los
animales las clases podran estar caracterizadas por intervalos cuyos lmites indicasen lmites
inferior y superior de los pesos. Por ejemplo, la clase C1 sera la formada por todos los pesos
comprendidos entre 0 y 5 kilogramos, la C2 la correspondiente a los pesos comprendidos entre 5 y
10, la C3 la correspondiente a los pesos comprendidos entre 10 y 15, etc. Entonces la tabla
adoptara la siguiente forma:
Tabla 3
Clases
Frecuencias absolutas

0-5

5 - 10

10 - 15

15 - 20

20 - 25

25 - 30

f1 = 10

f1 = 15

f1 = 20

f1 = 14

f1 = 6

f1 = 3

68

1.2.2. Representacin de los datos.


Para visualizar la informacin de una tabla de datos agrupados se recurre a distintos tipos
de grficos (pictogramas, histogramas, polgonos, entre otros), con la nica restriccin de que
representen fielmente el peso relativo de cada clase, por medio de su frecuencia absoluta, en
relacin a las dems clases.
Por ejemplo, despus de obtener la tabla de frecuencias para las distintas razas, esta se
podra visualizar con un pictograma construido de la siguiente forma: dibujado un circulo, este se
puede dividir en tantos sectores circulares como clases tengamos en nuestra tabla, dndole a
cada uno de los sectores una amplitud (en grados) proporcional a la frecuencia de la clase a la
que vaya a representar.
Por este sencillo procedimiento se llega, para la tabla de frecuencias de la distribucin de
razas, al siguiente grfico:

de la informacin disponible) y a partir de esos datos obtenemos 2 estadsticos, resulta obvio que
estos no pueden contener ms que una parte de la informacin total. Si calculsemos 100
estadsticos es posible que retuvisemos toda la informacin, pero no habramos ganado nada en
cuanto al objetivo de sintetizar las propiedades de la muestra.
Nos encontramos, entonces, con un dilema al elegir el nmero de estadsticos que
representarn a nuestra muestra: por una parte, deseamos que su nmero sea reducido; por otra,
queremos que esos estadsticos retengan la mayor cantidad de informacin posible de la muestra
de la que proceden.
Como resultado de este conflicto, la experiencia estadstica nos ha dejado una solucin
que, en buena parte de las situaciones experimentales habituales, es suficiente: el uso sistemtico
de unos estadsticos tpicos nos permite cumplir el objetivo de reducir la muestra con una
aceptable prdida de informacin.
Estos estadsticos tpicos, cuyo desarrollo ser el objetivo de lo que sigue, se agrupan
tradicionalmente en tres grandes grupos: (1) estadsticos de localizacin, (2) estadsticos de
dispersin y, (3) estadsticos de forma.
1.3.

Definiciones bsicas de la estadstica descriptiva

1.3.1. Poblacin.
Entenderemos como poblacin el mayor conjunto de elementos de los cuales deseemos
obtener informacin, siendo sus elementos los individuos susceptible de observacin o
experimentacin.
Por ejemplo, una poblacin puede estar formada por personas, animales u objetos
inanimados. El conjunto de todos los animales que pasaron por el Hospital Clnico Veterinario
durante el ao 2009 constituye una poblacin; las temperaturas medias anuales en Murcia en el
periodo 1990 2010 constituyen otra poblacin; o la coleccin de todas las posibles placas de
cultivo conteniendo una colonia de bacterias e.coli constituye otra.

Grfico 1
Pictograma de Razas
Category
Pastor
Caniche
Dogo
Mastn
Malts
Doberman
Galgo
Labrador

La experimentacin u observacin es un proceso de anlisis de elementos de la poblacin,


con el objetivo de obtener informacin desconocida de los elementos de la muestra (estadstica
descriptiva) y de inferir los resultados obtenidos a toda la poblacin midiendo el grado de
verosimilitud de esta inferencia (inferencia estadstica).
En general, un experimento puede ser determinstico o aleatorio. Se dice aleatorio cuando
su propia naturaleza nos impide afirmar que su repeticin en las mismas exactas condiciones
conducir a un nico resultado. Solo podemos conocer a priori, que el resultado obtenido ser un
valor perteneciente a un conjunto de posibles resultados, y solo podremos conocer a posteriori,
tras la realizacin el ensayo el valor concreto. Sin embargo, en un experimento determinista,
iguales condiciones iniciales conducen a un mismo resultado.

N = 202

1.2.3. Reduccin de los datos.


Una muestra se ha reducido cuando a partir de sus elementos se han calculado una
reducida cantidad de nmeros, llamados estadsticos, que sinteticen de la manera ms fiel
posible las caractersticas y tendencias de la muestra.

1.3.2. Variables.
El objetivo ltimo del estudio de una poblacin es el de conocer el comportamiento de sus
elementos colectivamente, es decir: averiguar lo que tienen en comn (o los diferencia) y las
tendencias o pautas que siguen.

x1 + x 2 + .... + xn1 + xn
, denominada media aritmtica de la
n

Por ejemplo, en el caso de la Clnica, nuestros intereses podran ser tan distintos como:
averiguar la distribucin de especies, analizar el comportamiento de los pesos o edades de los
animales de una cierta especie, o investigar el tiempo dedicado a cada consulta.

Por ejemplo, la cantidad x =


muestra, es un estadstico.

En este proceso del conjunto de datos de la muestra a un conjunto de estadsticos se


produce una prdida de informacin. Si suponemos que la muestra tiene n = 100 datos (el 100%

En cualquier caso, realizaremos un proceso comn: seleccionaremos uno a uno cada


elemento de la poblacin, aplicaremos algn mecanismo de medicin (como una bscula para
medir el peso, o la simple observacin para determinar la especie), y obtendremos un resultado.
En resumen,
El mtodo de seleccin de individuos de una poblacin es el muestreo, y cada eleccin
de un elemento de una poblacin se llama ensayo o prueba.
El proceso consistente en aplicar algn mecanismo de medicin u observacin a un
elemento de la poblacin recibe el nombre de variable.
El resultado obtenido al aplicar una variable a un elemento recibe el nombre de dato u
observacin.
Para un elemento y una variable X el dato obtenido al aplicar X a se representa por
medio del smbolo X() = x.
Tipos de variables y modalidades.
Una vez elegidas una poblacin y una variable X, los posibles resultados quedan
limitados a un determinado conjunto que denominaremos conjunto de modalidades de X, y que
representaremos por T. Este conjunto tambin recibe el nombre de poblacin de valores de la
variable, o simplemente poblacin.
Es importante observar que lo que denominamos modalidades son valores potenciales: los
que puede tener cualquier elemento de la poblacin antes de realizar un ensayo. Una vez
realizado este, la variable ha asignado al elemento elegido una cierta modalidad que se denomina
dato u observacin. Los elementos de T pueden ser:
letras o nombres, y la variable se llamar entonces cualitativa (nominal, si sus valores
no presentan ninguna ordenacin, u ordinal, si sus elementos tienen una ordenacin).
nmeros, y la variable se llamar cuantitativa (discreta, si sus valores son nmeros
enteros, o continua, si sus valores son nmeros reales).
Cuando las variables son cualitativas o cuantitativas discretas el conjunto de modalidades
se representa por T = {t1, t2, t3,., tk}, y por T = [a, b] cuando es cuantitativa continua, siendo a y
b, respectivamente, los valores mnimo y mximo que puede alcanzar la variable.
Ejemplo 2. Veamos algunos ejemplos utilizando los elementos del Hospital Clnico, tomando
como poblacin la formada por todos los gatos tratados en 2009.
Para estudiar la distribucin por sexos la variable ser cualitativa nominal, y el conjunto T
estar formado por solo dos elementos: T = {hembra, macho}.
Si se trata de averiguar las preferencias de los gatos por determinados tipos de pienso la
variable ser cualitativa ordinal, y el conjunto T estar formado por tantas modalidades como
tipos de pienso entren en el estudio: T = {1, 2,, k}, siendo 1 una forma de abreviar pienso
tipo 1, etc.
Cuando se trate de averiguar la distribucin del nmero de cachorros vivos en cada parto la
variable ser cuantitativa discreta, y el conjunto de modalidades depender de la experiencia
previa que se tenga sobre las variedades en estudio: si sabe que en cada camada no nacen
ms de 8 animales, el conjunto de modalidades ser T = {0, 1, 2,, 8}.
Para el estudio de los pesos la variable ser cuantitativa continua, ya que en funcin del
aparato de medida de que dispongamos el peso podr ser estimado con mayor o menor
nmero de cifras decimales (5, 5.4, 5.47,...). En este caso, el conjunto de modalidades ser un
intervalo de la recta real: T = [0, 30], si sabemos que el peso mximo que pueden alcanzar los
gatos es de 30 kilogramos.

1.3.3. Mu
uestras. Espacio muestral.
Llamamos mu
uestra de tam
mao n al cconjunto de
e observacio
ones obteniidas tras la realizacin
n
de n prueb
bas. Una muestra se re
epresenta ccomo un co
onjunto de valores
v
ordeenados con respecto a
su obtencin u observvacin:
Muestra = M = (x1,x 2 ,...,xi ,...xn )
Desstacar la necesidad
n
prctica
p
de trabajar con muestra
as para faccilitar el tra
atamiento y
anlisis de
e los datos u observac
ciones, con respecto all manejo de
e censos quue estn forrmados porr
el total de individuos de la pobla
acin, ms an cuand
do la observ
vacin de uun individuo
o implica su
u
destruccin (por ejem
mplo para medir su tiem
mpo de vida).
El conjunto de
e todas las
s muestras posibles del
d mismo tamao n se denomina espacio
o
muestral y se represe
enta con M(nn) (y en ocassiones por M omitiendo
o el tamaoo).
Nottar que el conjunto
c
de
e elementoss {1, 2,
, n} es un
n subconjunnto de la po
oblacin ,,
mientras q
que la muesstra es un punto del es pacio mues
stral.
3. Suponga
amos que X es una varriable cuyo conjunto de
e modalidaddes es T = {1, 2, 3, 4}..
Ejemplo 3
Podemos visualizar la
as modalidades como
o 4 bolas situadas en una caja y numeradas
s de 1 a 4..
Cada prue
eba consistir en extrae
er una bola , anotar su nmero y devolverla
d
a la caja.
Si realizamos dos prueb
bas conseccutivas obte
endremos una
u
muestrra de tama
ao 2, que
e
representa
aremos por (x1, x2).
El e
espacio mu
uestral est constituido
o, por los 16
6 puntos del conjunto M (2) = {(1, 1), (1, 2), ...,,
(3, 4), (4, 4
4)}, cuya representaci
n es

En la siguiente figura se muestra un esquema del proceso completo hasta obtener un


resultado. As, al elemento 1 la variable X le ha asignado la modalidad t2, que llamaremos
observacin x1, al elemento 2 la variable X le ha asignado la modalidad tk, que llamaremos
observacin x2, etc.

Ejemplo 4
4. Un experiimento cons
siste en la m
medicin de
el peso de los animaless de una es
specie cuyo
o
peso mximo es de 4 kilogramos
s. En este e
experimento
o:
(a) la p
poblacin estar constituida porr todos los animales
a
de
e la especiee considerad
da;
(b) la variable X representtar la med
dicin del peso de cada
c
animaal, y su conjunto de
e
mod
dalidades se
er el conju
unto de todo
os los nme
eros compre
endidos enttre 1 y 4: T = [1, 4],
(c) las muestras de tamao 2 estarn co
onstituidas por
p pares de nmeros comprendidos entre 1
y 4, el primero x1 correspo
ondiente al primer anim
mal pesado,, y el segunndo x2 corre
espondiente
e
al se
egundo anim
mal: M = (x1, x2), y

(d) el e
espacio mue
estral M(2) estar
e
form
mado por tod
dos los puntos del cuaadrado [1, 4]x[1, 4] que
e
se m
muestra en la siguiente
e figura.

En este caso, el muestreo es sin reemplazamiento, y las muestras obtenidas se llaman


muestras aleatorias sin reemplazamiento. Por construccin, estas muestras no pueden tener un
tamao n superior a N (tamao de la poblacin inicial), ya que tras N ensayos no quedar ningn
elemento en la poblacin.
Situacin 3. Supongamos ahora que disponemos de un dado cuyas caras estn
numeradas de 1 a 6. Cada ensayo consiste en un lanzamiento del dado y la posterior anotacin
del resultado obtenido. En este caso no podemos distinguir entre muestreo con o sin
reemplazamiento. Por la naturaleza del experimento, tras cada ensayo la poblacin es
exactamente la misma que antes.

uestreo. Tip
pos de Mue
estreo.
1.3.4. Mu
Se denomina muestreo al
a proceso d
de obtenci
n de muestras. Naturaalmente cad
da muestra
a
de tamao
o n es el resultado de la realizaciin de una serie de n ensayos soobre los ele
ementos de
e
ma en que
una mism
ma poblaci
n, por lo que la form
e se realiz
zan los enssayos dete
erminar la
a
constituci
n final de la
a muestra.
Tre
es caractersticas del proceso
p
de muestreo nos
n permitirrn caracterrizar los dis
stintos tiposs
de muestre
eo:
1. Que la poblacin es la
l misma ca
ada vez que
e se realiza un ensayoo.
2. Que todoss los eleme
entos de la poblacin tengan
t
la misma
m
posibbilidad de ser elegidoss
para la rea
alizacin de
el ensayo.
3. Que antess de realizar el ensayo
o y obtener un
u elemento
o de la pooblacin, el valor X())
solo pueda ser una determinada
d
a modalidad
d o, por el contrario,
c
puueda ser un
na de entre
e
un conjunto de moda
alidades.

Situacin 4. Si la poblacin es muy numerosa, por ejemplo la constituida por los 6,500
millones de habitantes del planeta Tierra, y la prueba consiste en la eleccin al azar de una
persona y la determinacin de su peso, a todos los efectos prcticos, la devolucin o no de esa
persona a la poblacin original no va a afectar significativamente los resultados de las siguientes
pruebas.
De estas situaciones se pueden extraer dos caractersticas de los procesos de toma de
muestras aleatorias:
i)
Si las poblaciones son finitas, el tipo de muestreo condiciona la estructura de las
muestras obtenidas (muestreo con o sin reemplazamiento).
En este caso, la influencia del tipo de muestreo disminuye a medida que aumenta el
tamao de la poblacin.
ii)
Si las poblaciones son infinitas, el tipo de muestreo no tendr una influencia
significativa en las muestras obtenidas.
En general, en un experimento aleatorio destacan tres caractersticas bsicas:
1. Se puede repetir un gran nmero de veces bajo un conjunto de condiciones estables
(condicin de repetibilidad indefinida).
2. En cada prueba del experimento no se puede predecir el resultado que se va a obtener
sino la pertenencia del mismo a un conjunto determinado de posibles resultados
(condicin de azar).
3. La frecuencia relativa de cada resultado, el cociente de dividir el nmero de veces que
se ha repetido por el nmero total de pruebas realizadas, tiende a estabilizarse en
torno a un nmero fijo cuando el nmero de pruebas crece indefinidamente (condicin
de regularidad estadstica).

s
Muestreo aleatorio simple.
ando todoss los elementos de la poblacin tienen
t
la misma
m
posibbilidad de ser elegidoss
Cua
denominarremos al pro
oceso de muestreo:
m
m
muestreo ale
eatorio. Puede ser de ddos tipos:
Mu
uestreo alea
atorio con reemplazam
miento: cua
ando tras la
l realizaci n de una
a prueba ell
ele
emento obte
enido para la
l misma ess devuelto a la poblac
cin antes dde realizar la
l siguiente
e
pru
ueba. Por lo
o que la pob
blacin no ccambia tras la realizaci
n de cada prueba.
Mu
uestreo alea
atorio sin reemplazam
r
miento: cuando tras la
a realizacin de cada
a prueba ell
ele
emento obse
ervado no es
e devuelto a la poblac
cin antes de
d la siguiennte prueba.. Por lo que
e
la p
poblacin disponible se
e reduce co
on cada exp
perimentaci
n.
Vea
amos algun
nas situaciones que mo
ostrarn las
s diferencias
s y coincideencias entre
e uno y otro
o
tipo de mu
uestreo.
Situ
uacin 1. Disponemos
D
s de una ccaja en la que
q
hay N bolas num
meradas de
e 1 a N. Sii
retiramos a
al azar una bola de la caja,
c
anota mos su nm
mero (k, porr ejemplo) y devolvemo
os la bola a
la caja el m
muestreo ess con reemp
plazamiento
o.
Es claro que, actuando de
ma la pobla
d esta form
acin no ca
ambia de ccomposicin
n entre una
a
prueba y la
a siguiente.. Naturalme
ente el nme
ero obtenid
do es el prim
mer elemennto de nuesttra muestra
a
y lo repressentaremos por x1 = k. La repetici n de este procedimie
ento n vecess nos propo
orciona una
a
muestra alleatoria con
n reemplaza
amiento de
e tamao n. Por constrruccin, n ppuede toma
ar cualquierr
valor arbitrrariamente grande: tan
nto como lo sea el nm
mero de ensayos que reealicemos.
Situ
uacin 2. Con
C
la mis
sma caja, ssupongamo
os que tras
s extraer ccada bola esta
e
no ess
devuelta a la caja. Si
S el resultado del en
nsayo es la
a bola de nmero
n
k, como en la situacin
n
anterior, ccuando vaya
amos a rea
alizar la seg
gunda prue
eba la pobla
acin ha caambiado: contiene loss
elementoss de la pobla
acin iniciall menos la b
bola k. Por tanto, los (k-1) elemenntos que qu
uedan en la
a
poblacin no tienen la
a misma po
osibilidad de
e ser elegid
dos que los de la poblaacin inicial (aunque sii
la tengan e
entre ellos)..

2.
Tablas de frecuencias y representaciones grficas de un conjunto
de datos.
En este apartado vamos a ocuparnos de dos herramientas bsicas de la Estadstica
descriptiva. Dada una muestra (x1, x2, ..., xi, ..., xn), resumir la informacin en una tabla de datos
agrupados y, representar grficamente la informacin que nos proporciona dicha tabla.
Veremos como realizar estas operaciones manualmente, utilizando muestras de pequeo
tamao, con el objetivo de que se adquieran las habilidades necesarias para entender el
significado de los clculos y grficos, reservando el tratamiento de muestras de tamao mediano o
grande para el uso de los programas estadsticos en las prcticas (por ejemplo, Minitab).
2.1.

Frecuencias de una variable.

Bsicamente, una tabla de datos agrupados se obtiene dibujando una tabla de dos filas, y
tantas columnas como modalidades o clases de modalidades de nuestra variable, escribiendo en

10

las casillas de la primera fila el nombre de las modalidades o clases y, en las correspondientes
casillas de la segunda fila, el nmero de elementos de la muestra cuyo valor es igual a esa
modalidad o est dentro de esa clase. Esta cantidad o conteo de valores de la muestra se
denomina frecuencia.
En particular, utilizaremos la siguiente nomenclatura segn tratemos con una variable
cualitativa o cuantitativa discreta, o con una variable cuantitativa continua:
Variable cualitativa o cuantitativa discreta: Sus modalidades T = {t1, t2, ..., ti, ..., tk}
forman la primera fila de la tabla y para cada modalidad ti, se llama frecuencia absoluta
de ti a:
fi = f(ti) = nmero de elementos de la muestra iguales a ti
que completa la segunda fila de la tabla.
Variable cuantitativa continua: El intervalo de modalidades T=[a, b] se divide en nmero
conveniente k de subintervalos disjuntos (particin), llamados intervalos de clase
A1 = [a0, a1], A2 = (a1, a2], , Ai = (ai-1, ai], , Ak = (ak-1, ak]
que forman la primera fila de la tabla, y la segunda fila se construye con las frecuencias
absolutas de cada intervalo de clase, esto es, para cada intervalo Ai=(ai-1, ai], su
frecuencia absoluta es el nmero de elementos de la muestra cuyo valor est
comprendido entre ai-1 y ai:
fi = f((ai-1, ai]) = nmero de elementos de la muestra cuyo valor entre ai-1 y ai.
Observar que en el caso de variable cuantitativa continua, tambin suele utilizarse las
marcas de clase (punto de medio de cada intervalo de clase) como valores representativos para la
primera fila de la tabla de frecuencias.

f = n .
i

f(t i ,t j ) = f(t i ) + f(t j ) = fi + f j


f((ai-1, ai] (aj-1, aj]) = f((ai-1, ai])+f((aj-1, aj]) = fi +fj .

A partir de estas frecuencias absolutas se pueden construir las denominadas frecuencias


absolutas acumuladas para variables cuantitativas. La frecuencia absoluta acumulada hasta la
modalidad ti, es la suma de las frecuencias de todas las modalidades inferiores o iguales a ti y se
representa por Fi. As,
Si la variable X es discreta la frecuencia acumulada es el nmero de datos de la
muestra con valor menor o igual que ti
i

Fi = f(X < ti) =

= f1 + f2 + .... + fi .

Si la variable es continua la frecuencia acumulada es el nmero de datos de la muestra


con valor menor o igual que ai
i

Fi = f(X < ai) = f([a0,a1])+f((a1,a2])+...+f((ai-1,ai]) =

= f1 + f2 + .... + fi .

Las frecuencias acumuladas tienen las siguientes propiedades:


Fi 0 , para i = 1, 2,, k.
i)

Fi = Fi1 + fi .

iii)

Fk = n .

= 1.

iii)
iv)

h(t i ,t j ) = h(t i ) + h(t j ) = hi + h j


h((ai-1, ai] (aj-1, aj]) = h((ai-1, ai])+h((aj-1, aj]) = hi +hj

y las frecuencias relativas acumuladas verifican:


i)
0 < Hi 1, para i = 1, 2,, k.
ii)

Hi = Hi1 + hi .

iii)

Hk = 1.

Tablas de frecuencias para una variable cualitativa o discreta


En este caso, las siguientes tablas de frecuencias corresponden a una variable con 5
modalidades y una muestra de tamao 21.
Tabla 4. Frecuencias absolutas no acumuladas
ti
t2
t3
t4
t5

Modalidades

f1 = 2

f2 = 5

f3 = 8

f4 = 4

F1 = 2

F2 = 7

F3 = 15

f5 = 2

Tabla 5. Frecuencias absolutas acumuladas


Modalidades
ti
t2
t3
t4
Frecuencias

r =1

ii)

Frecuencias

r =1

ii)

Veamos a continuacin la forma que adoptan las tablas de frecuencias para cada tipo de
variable (discreta o continua) y cada tipo de frecuencias absolutas o relativas (acumuladas o no
acumuladas), para lo que utilizaremos muestras ficticias.

iii)
iv)

Estas frecuencias relativas no acumuladas satisfacen las siguientes propiedades:


i)
0 < hi < 1, para i = 1, 2,, k.

Observar que en la prctica tambin es habitual expresar estas frecuencias relativas, que
por definicin se encuentran en el intervalo (0,1), en trminos de porcentajes para facilitar su
interpretacin.

Propiedades.
i)
fi > 0, para i = 1, 2,, k.
ii)

En este sentido, las frecuencias relativas no acumuladas y las frecuencias relativas


acumuladas se definen como sigue:
Si la variable es discreta, para cada modalidad ti
o su frecuencia relativ es hi = h(ti) = = fi/n,
o su frecuencia relativa acumulada es Hi = H(ti) = = Fi/n.
Si la variable es continua, para cada intervalo de clase (ai-1, ai]
o su frecuencia relativa es hi = h((ai-1, ai]) = fi/n,
o su frecuencia relativa acumulada es Hi = H((ai-1, ai]) = Fi/n.

F4= 19

n = 21

t5
F5 = 21

Tabla 6. Frecuencias relativas no acumuladas


t2
t3
t4
t5

Modalidades

ti

Frecuencias

h1= 2/21

h2 = 5/21 h3 = 8/21 h4 = 4/21 h5 = 2/21

Tabla 7. Frecuencias relativas acumuladas

Otra forma de expresar las frecuencias absolutas, acumuladas o no acumuladas, es


relativizando sus valores con respecto al tamao de la muestra, es decir, dividiendo las
frecuencias absolutas por el tamao muestral n, obtenindose las frecuencias relativas.

11

Modalidades

ti

Frecuencias

H1 = 2/21

t2

t3

t4

t5

H2 = 7/21 H3 = 15/21 H4 = 19/21 H5 = 21/21

12

Grfico de sectores (variables cualitativas)


Tablas de frecuencias para una variable cuantitativa continua

Pictograma de Razas

En este caso, las siguientes tablas de frecuencias corresponden a una variable continua
con conjunto de modalidades T = [a, b], y una muestra de tamao 50. Para construir las tablas de
frecuencias, tenemos que estalecer los intervalos de clase que forman la particin del intervalo
[a,b].

Category
Pastor
Caniche
Dogo
Mastn
Malts
Doberman
Galgo
Labrador

As, teniendo en cuenta que a y b son los valores mnimo y mximo que puede tomar la
variable, se elige un nmero de intervalos de clase k para agrupar los n datos, por ejemplo puede
calcularse mediante la regla de Sturges u otras similares. En este caso, si se toma k=5, los
extremos de los intervalos de clase se obtienen como sigue:
Se determina la amplitud h de cada clase: h = (b a)/k.
Se calculan los lmites de clase: ai, para i = 0, 1, 2,...., k, mediante las relaciones:
a0 = a, a1 = a + h, a2 = a1 + h,..., ak = ak-1 + h = b.

Se calculan las marcas de clase de cada intervalo: zi, = (ai-1 + ai)/2, para i = 1, 2, ..., k.
N = 202

Clases

Tabla 8. Frecuencias absolutas no acumuladas


(a1, a2]
(a2, a3]
(a3, a4]
(a4, a5]
[a0, a1]

Marcas de clase
Frecuencias

z1

z2

z3

z4

z5

f1 = 3

f2 = 9

f3 = 15

f4 = 13

f5 = 10

Diagrama de barras (variables discretas)

Histogram of Parsitos
9

n = 50

8
7

Clases

[a0, a1]

(a1, a2]

(a2, a3]

(a3, a4]

(a4, a5]

Marcas de clase

z1

z2

z3

z4

z5

F1 = 3

F2 = 12

Fi = 27

Fk-1 = 40

Fk = 50

Frecuencias

Clases
Marcas de clase
Frecuencias

Clases
Marcas de clase
Frecuencias

Tabla 10. Frecuencias relativas no acumuladas


[a0, a1]
(a1, a2]
(a2, a3]
(a3, a4]
(a4, a5]
z1

z2

z3

z4

h1 = 3/50

h2 = 9/50

h3 = 15/50

z2

H1 = 3/50 H2 = 12/50

H3 = 27/50

z4

5
4

2
1

h4 = 13/50 hk = 10/50

z3

z5

Tabla 11. Frecuencias relativas acumuladas


[a0, a1]
(a1, a2]
(a2, a3]
(a3, a4]
z1

Frequency

Tabla 9. Frecuencias absolutas acumuladas

4
Parsitos

Polgono de frecuencias acumuladas o polgono acumulativo (variables discretas)


(a4, a5]

Polgono acumulativo de Pinos/parcela

z5

500

H4 = 40/50 H5 = 50/50

2.2.

Representaciones grficas.

Como indicbamos ms arriba las representaciones grficas tienen la finalidad de


visualizar la informacin procedente de la muestra cuando se ha sintetizado en una tabla de
frecuencias agrupadas.
Por ejemplo, las siguientes grficas ilustran algunos de los casos bsicos para representar
las frecuencias de una variable segn su naturaleza (cualitativa o cuantitativa), las cuales son
sencillas de realizar con cualquier programa estadstico.

13

Frec.Acumuladas.

400

300

200

100

0
1

5
6
Pinos/parcela

10

14

Por ejemplo, consideremos una muestra cualquiera (x1, x 2 , x 3 ) de una variable X. La

Histograma de frecuencias absolutas no acumuladas (variables continuas)

funcin y = x1 2.x 2 + x 32 es un estadstico. Si se realizan las tres pruebas, obteniendo la muestra

Histograma de Periodo de Latencia

concreta (x1, x 2 , x 3 ) = (2, 5, -2), entonces y = 2 2.5 + (2) 2 = 4 es el valor del estadstico.

14

Como vimos, los estadsticos ms comunes se clasifican estadsticos de localizacin,


dispersin y forma. No obstante, la mayora de ellos se basan en los estadsticos llamados
momentos: momentos respecto del origen y momentos centrados.

12

Frequency

10
8

Se llama momento respecto del origen de orden r a la funcin:


Si los datos proceden de la muestra sin agrupar

ar =

2
0

8
10
12
Periodo de latencia

14

16

Tamao de muestra = n = 100

Si los datos proceden de una variable discreta y se han agrupado en una tabla de
frecuencias, con modalidades ti y frecuencias fi, el momento se calcular por medio de
la frmula

f .t
i

Histograma de frecuencias absolutas acumuladas (variables continuas)

Frecuencia acumulada

, para r = 0, 1, 2, 3,.

Si los datos proceden de una variable continua y se han agrupado en una tabla de
frecuencias, con marcas de clase zi y frecuencias fi, utilizaremos la frmula

f .z
i

40

ar =

r
i

, para r = 0, 1, 2, 3,.

30

Los momentos respecto del origen de orden 1, 2, 3 y 4 sern utilizados frecuentemente en


el clculo de distintos estadsticos:
a0 = 1.

20

10

4
6
Nmero de Parsitos

a1 =

a2 =

x
n

Comos hemos mencionado anteriormente, las medidas descriptivas o estadsticos reducen


la cantidad de datos proporcionando valores que resumen la informacin de la muestra
describiendo las caractersticas principales del conjunto de datos.
As, el trmino estadstico tiene un doble significado. Por una parte, un estadstico es una
funcin de los valores de la muestra, o una funcin de las modalidades de la variable y de sus
frecuencias correspondientes,
E = f (x1,x 2 ,...,xi ,...xn ) .
Por otra parte, un estadstico es el valor obtenido cuando en esta funcin de la muestra se
sustituyen las variables por las observaciones o datos concretos de la muestra. En este caso, se
suele hablar de valor del estadstico, utilizando el smbolo e para indicar el nmero obtenido al
sustituir cada variable x i por su valor concreto en la muestra.

15

a3 =

x
n

a4 =

x
1

x1 + x 2 + x 3 + ... + xn
= x se llama media aritmtica o media.
n

x12 + x 22 + .... + xn2


= x 2 es la media de los cuadrados.
n

x13 + x 32 + .... + xn3


= x3 es la media de los cubos.
n

x14 + x 24 + .... + xn4


= x 4 es la media de las potencias de orden cuatro.
n

3
i

2
i

Medidas descriptivas de un conjunto de datos de una variable.

3.

r
i

ar =

Histograma acumulativo de Parsitos

, para r = 0, 1, 2, 3,.

50

r
i

4
i

Los momentos centrados o respecto de la media se definen y calculan como los momentos
respecto del origen cuando los datos x i son sustituidos por sus desviaciones respecto de la media

(x i x) . As, el momento central de orden r,se define por medio de la frmula:

Para una muestra sin agrupar,


n

mr =

(x

x)r

, para r = 0, 1, 2, 3,.

16

Observar que los momentos centrales estn relacionados con los momentos respecto del
origen, por ejemplo para los 4 primeros momentos de cada tipo.
m0 = a0 = 1.
m1 = a1 - a1 = x x = 0.
2

m2 = a2 (a1) = x - ( x ) , se llama varianza de la muestra (  desviacin tpica).

3
2
m3 = a3 3. a2. a1 + (a1)3 = x - 3. x + 2.( x )3.

m4 = a4 4. a3.a1 + 6. a2.(a1) 3.(a1) = x - 4. x . x + 6. x .( x ) 3.( x ) .


2

En ellos pueden observarse los efectos producidos en el histograma de la variable IQ


cuando se le aplican, sucesivamente, las transformaciones (100 + IQ), (IQ/4) y (100 + IQ/4).
Grfico 2
Histogram of IQ; IQ+100

40
20

10

10

80

120

160
Data

40

60

40

Frequency

f .t
i

A partir de la tabla de frecuencias absolutas: x =

A partir de la tabla de frecuencias relativas: x =

80
Data

100

120

140

Variable
IQ
100+IQ/4

20

10

n
k

h .t
i

Propiedades de la media:
i)
Si todos los datos de la muestra se multiplican por un mismo nmero a, la media de
los nuevos datos es igual al producto de a por la media de los datos originales:
Si yi = a. xi, entonces y = a.x .
ii)
Si a todos los datos de una muestra se les suma una constante b, la media de los
nuevos datos es igual a la suma de b y la media de los datos originales:
Si yi = xi + b, entonces y = x + b .
iii)
Si se tipifican o estandariza los datos, es decir, se les resta la media de la muestra y las
diferencias se dividen por la desviacin tpica de la muestra, los nuevos datos tienen
media 0 y desviacin tpica 1:

iv)

20

30

Si yi =

240

Grfico 3

A partir de la muestra en bruto: x =

200

Histogram of IQ; 100+IQ/4

30
20

Los estadsticos de posicin o localizacin son valores obtenidos a partir de la muestra que
nos indican caractersticas sobre la posicin, generalmente central, de los datos. Veamos algunos
de ellos.

Variable
IQ
IQ /4

30

Estadsticos de localizacin

3.1.1. Media aritmtica

60

Variable
IQ
IQ +100

50

3.1.

Histogram of IQ; IQ/4

40

Frequency

Para una muestra agrupada, de una variable discreta o continua, las frmulas son
equivalentes a las de los momentos respecto al origen (con las correspondientes
sustituciones de x i por (t i x) para las primeras, y por (zi x) para las segundas.

Frequency

(xi x)
s =1
, entonces y = 0 , y
.
sx

Si M1 = (x1, x2, x3,..... xn-1, xn) y M2= (y1, y2, y3,......, ym-1, ym) son dos muestras de medias
x e y , respectivamente, entonces la media de la muestra resultante de la unin, M1 U
M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente media:

90

100

110

120
Data

130

140

150

3.1.2. Medias geomtrica xg y armnica xh.


En algunos experimentos los datos presentan rangos de variacin de los datos que hacen
difcil la visualizacin y el uso de los estadsticos para su interpretacin. Dos ejemplos pueden
ilustrar estas situaciones.
Ejemplo 5. Si se est estudiando la distribucin de los ingresos anuales de las personas
individuales y de las empresas nos encontramos con que los ingresos varan entre los 1000 euros
(103) y los 10 millones de euros (107), mientras que las frecuencias, el nmero de personas o
empresas que ingresan esas cantidades, varan entre 2.000 millones (2.109), para los ingresos
menores, y 10.000 (104).
En esta situacin, ningn grfico razonable (del tamao de un folio, por ejemplo) puede
ofrecernos una visin realista de la distribucin de los ingresos junto a la de los perceptores de los
mismos.

Ejemplo. Los siguientes grficos proceden de los datos de la variable IQ (cociente de inteligencia)
de una muestra de 100 personas (los datos pueden encontrarse en Datos 1: fichero Inteligencia).

Ejemplo 6. Cuando se intenta establecer el comportamiento de las burbujas de oxgeno en la


sangre nos encontramos con que los dimetros oscilan entre 0.00017 y 0.00312 milmetros, por
ejemplo. Es decir se encuentran el un rango que va de 10-4 y 10-3.
Para conseguir llevar a los datos a situaciones manejables se emplean transformaciones
como la logartmica ln(x) o la funcin 1/x. La primera transforma un nmero como 5.107 en el
nmero 17,73; la segunda transforma un nmero como 0.00312 en el nmero 320,51.
Las dos medias, geomtrica y armnica, se obtienen de manera similar: se transforman los
datos, se halla la media de los datos transformados, y se aplica la transformacin inversa a la

17

18

(n.x + m.y)
w=
(n + m)

donde (w1, w2, w3,..... wn+m-1, wn+m)=(x1, x2, x3,..... xn-1, xn, y1, y2, y3,..... ym-1, ym).

media as obtenida. Sin


S entrar en
n estos pro cesos, vere
emos las frmulas quee nos permitten calcularr
edias.
ambas me
n

ln( xi )

Media geomtrica: xg =
Media armnica: xh =

reordenados, el primero de izquierda a derecha y el segundo de derecha a izquierda, hasta


localizar el valor que verifica las dos condiciones de la definicin.
Supongamos que la muestra M de tamao 48: M = (5, 7, 8, 7, 6. 7, 3, 4, 0, 9, 7, 5, 4, 3, 5,
4, 6, 8, 9, 7, 2, 5,1, 1, 2, 6, 4, 7, 6, 9, 3, 3, 6, 7, 3, 4, 4, 6, 7, 5, 9, 0, 1, 2, 7, 4, 1, 8)

Observemos, en primer lugar que n/2 = 48/2 = 24, lo que supone que la mediana m debe
dejar a su izquierda al menos 24 valores de la muestra y a su derecha al menos 24 valores.

n
1
1
1
+ +....+
x4
x1 + x2

oda: Mo.
3.1.3. Mo
Para una variable discreta:
d
la moda es la modalidad de laa variable con mayorr
frecuencia.
v
con
ntinua: la mo
oda es la marca
m
de la clase
c
con m
mayor frecuencia.
Para una variable
En general, un
na poblaci
n puede te
ener varias modas, lo que implicaa que en un
na muestra
a
encontrem
mos ms de una moda. Se emple
ea el trmino poblacin
n n-modal a aquella qu
ue posee n
modas.
Loss dos grficcos siguien
ntes muesttran los his
stogramas de
d dos muuestras de las que la
a
primera tie
ene una sola
a moda, mie
entras que la segunda posee dos.
Grfico 4

Para proceder a su determinacin, ordenemos los elementos de la muestra de menor a


mayor y contemos de izquierda a derecha 24 lugares y otros 24 de derecha a izquierda:
0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5,
5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9, 9, 9.
entonces, el valor 5 es la mediana ya que f(X < 5) = 26 >24 y f(X > 5) = 28 > 24.
En el caso de una variable continua con los datos agrupados por intervalos, se identifica el
intervalo para el se verifica una de las dos condiciones de la mediana, supongamos que es el
intervalo de clase (ai, ai+1] para el que
n
1
Fi < < Fi+1 o Hi < < Hi+1,
2
2
segn utilicemos frecuencias acumuladas absolutas o relativas, respectivamente, entonces el
valor m de la mediana se calcula por:
n
1
( Fi )
( Hi )
m = ai + 2
.(ai+1 ai ) = ai + 2
.(ai+1 ai ) .
(Fi+1 Fi )
(Hi+1 Hi )

Notar que para el estadstico de posicin moda M0 indica el valor de la variable con mayor
frecuencia muestral, y el estadstico media x proporciona la situacin del centro de gravedad de
la muestra. Asimismo, la mediana m de una muestra nos serva para situar un valor de la variable
que, con matizaciones, dejaba un 50% de los datos por debajo de l, y el restante 50% por
encima. Tambin las observaciones mnima y mxima pueden entenderse como medidas de
posicin: el 100% de los datos son superiores o iguales a la observacin mnima, y el 100% de los
datos son inferiores o iguales a la observacin mxima.

odas en la segunda muestra


m
se explica porrque esta consiste
c
en
n
La existencia de dos mo
males de un
na especie e
en la que lo
os machos posen una longitud notablemente
e
longitudes de los anim
embras. De
e hecho, la poblacin total de dich
hos animalees puede co
onsiderarse
e
superior a la de las he
ubpoblaciones, la de lo
os machos y la de las hembrass, en cada una de lass
estructura en dos su
a moda) tom
man diferenttes valores..
cuales los estadsticos no solo la
ediana: m.
3.1.4. Me
m
es e
el valor de la variable que verificca las dos condiciones
c
s
La mediana m de una muestra
siguientes::
al m
menos el 50
0% de los va
alores de la
a muestra son inferiore
es o iguales a m, y
al m
menos el 50
0% de los va
alores de la
a muestra son superiorres o igualees a m.
Utilizando la nomenclatur
n
ra usual, esstas dos condiciones se
s expresann matemtic
camente de
e
e manera
la siguiente
F(m
m) = f(X < m)
m > n/2, y
1 F(m) = f(X > m) > n/2.

Vamos, pues, a generalizar la nocin de mediana a unos nuevos estadsticos denominados


cuantiles, los cuales tienen la caracterstica de dejar por debajo de ellos un porcentaje del p % de
los valores de la muestra (y, lgicamente, dejarn por encima un porcentaje del (100 p) % de los
valores muestrales). En particular, consideraremos un cuantil o percentil p % que se representar
con el smbolo cp, siendo p un nmero comprendido entre 0 y 100.
3.1.5. Cuantiles.
Un cuantil al p% de una muestra es el valor cp de la variable que verifica las dos
condiciones siguientes:
al menos el p% de los valores de la muestra son inferiores o iguales a cp, y
al menos el p% de los valores de la muestra son superiores o iguales a cp.

Utilizando la nomenclatura usual, estas dos condiciones se expresan matemticamente de


la siguiente manera
F(cp) = f(X < cp) > n.p/100,
1 F(cp) = f(X > cp) > n.p/100.

En el caso de una variab


ble discreta, la mediana
a se obtiene por un obbservacin y recuento::
se ordenan
n los datoss de la mue
estra de me
enor a mayo
or y se realizan dos reecuentos de los datoss

Tipos usuales de cuantiles.


Cuartiles: cuantiles para p = 25, 50 y 75 %:
q1 = cuartil inferior, q2 = m = mediana, q3 = cuartil superior.
Deciles: cuantiles para p = 10, 20,....., 90 %: d10, d20,..., d90.
Centiles o percentiles: cuantiles para p = 1, 2, 3,...., 98 y 99 %: p1, p2, p3,..., p97, p98, p99.

19
9

20

3.2.2. Varianza insesgada (cuasivarianza):


ulo de los cuantiles, en la tabla de frecuencias aggrupadas acumuladas
a
s
Parra el clcu
localizarem
mos el intervvalo de clas
se (ai, ai+1] en el que se
s encuentra el cuantil cp utilizand
do que este
e
tiene que verificar la
a propiedad
d Fi < n.p/1
100 < Fi+1. Entonces tendremoss todos los elementoss
necesarioss para aplica
ar las siguie
entes frmu
ulas:
n.p
(
Fi )
(n.p Hi )
00
c p = ai + (a
ai+1 ai ). 10
.
= ai + (ai+1 ai ).
Fi +1 Fi )
(F
(Hi+1 Hi )

2
X

Para una muestra en bruto: S =

(x x)

(n 1)

2
X

Para una tabla de datos agrupados de una variable discreta: S =

f .(t x)
i

(n 1)
k

3.2.

Esttadsticos de
d dispersin

s tres caso s de los da


atos que tienen la mi sma media
a aritmtica
a
En primer lugar, veamos
6.00, pero se encuentran desigu
ualmente disspersos res
specto a ese valor cenntral, como se observa
a
en los siguientes hisstogramas: ms conce
entrados en
n el primero, algo meenos en el segundo y
mucho me
enos en el te
ercero.
Grfico 5

2
X

Para una tabla de datos agrupados de una variable continua: S =

f .(z x)
i

.
2

(n 1)

Propiedades de la varianza:
i)
Si los datos xi se multiplican por un nmero a, yi = a.xi, las varianzas sx2 y sy2 estn
relacionadas por la frmula
sy2 = a2.sx2.
ii)
Si a los datos xi se les suma un nmero b, yi = xi + b, las varianzas sx2 y sy2 son
iguales:
sy2 = sx2.
iii)
Las varianzas sesgada e insesgada estn relacionadas por la igualdad:

SX2 =
iv)

Loss estadstico
os de dispe
ersin cuanttifican esta propiedad de los datoos: asignan cantidadess
numricas menores a los histo
ogramas me
enos dispe
ersos y may
yores a loss ms disp
persos. Porr
a medida de
e dispersin denomina
ada desviac
cin tpica toma
t
el val or 0.76 parra el primerr
ejemplo, la
histograma
a, 1.26 para
a el segundo
o y 2.45 pa ra el tercero
o:
Rango o rrecorrido: R = xmax xmin.

n
.sX2 .
n 1

Si M1 = (x1, x2, ..., xn) y M2= (y1, y2, ..., ym) son dos muestras de medias x e y , y
varianzas sx2 y sy2, respectivamente, entonces la varianza media de la unin de las
muestras M1 U M2 = (x1, x2, x3,..... xn-1, xn) U (y1, y2, y3,..... ym-1, ym), tiene la siguiente
varianza:

s2w =

n.sX2 + m.s2y
(n + m)

n.( x w )2 + m.( y w )2
(n + m)

donde (w1, w2, ..., wn+m)=(x1, x2, ..., xn, y1, y2, ..., ym).
Desviaciones tpicas:
Las desviacin tpica se define mediante la raz cuadrada positiva de la varianza:
La desviacin tpica sesgada:
La desviacin tpica insesgada:

o intercuarttlico: Q = q3 q1.
Recorrido
n

x x
i

n media: D =
Desviaci

gada
3.2.1. Varrianza sesg
La varianza o varianza sesgada
s
de
e una varia
able cuantitativa se deefine segn
n el tipo de
e
datos de la
a muestra:
n

2
X

Para una muestra


m
en bruto: s =

( x x)

iii)

2
X

Para una tabla de dattos agrupad


dos de una variable
v
dis
screta: s =

f .(t
i

dos de una variable


v
con
ntinua: sX2 =
Para una tabla de dattos agrupad

Las desviaciones tpicas se relacionan por la igualdad: S X =

x)
x2

fi .(zi x)2
1

n
.s X .
n 1

3.2.3. Coeficiente de variacin:

Propiedades de la desviacin tpica:


i)
Si los datos xi se multiplican por un nmero a, yi = a.xi, las desviaciones tpicas sx y
sy estn relacionadas por la frmula:
sy = |a|.sx.
ii)
Si a los datos xi se les suma un nmero b, yi = xi + b, las desviaciones tpicas sx y sy
son iguales:
sy = sx.

21

sX
.
x
S
Coeficiente de variacin insesgado: CVx = 100. X .
x
Coeficiente de variacin sesgado: cvx = 100.

22

Grfico 7
3.3.

d forma
Esttadsticos de

3.3.1. Coe
eficientes de
d asimetrra.
En primer luga
ar mostrare
emos un eje
emplo de tre
es conjunto
os de datoss que refleja
an diferente
e
tipo de sim
metra o asim
metra:
Grafico 6

mo se obse
erva en los tres histog ramas, con
nsiderando como
c
refereencia de ab
bscisas suss
Com
medias, ca
ada histogrrama queda
a dividido e
en dos parrtes, que lla
amaremos cola izquie
erda y cola
a
derecha. A
As,
Un histogra
ama es sim
mtrico si am
mbas colas son simtric
cas respectto a la media
Un histogrrama es asimtrico porr la izquierd
da si su colla izquierdaa es ms la
arga que su
u
cola derecha
or la derech
ha si su cola derecha es ms larga que su
u
Un histogrrama es asimtrico po
cola izquie
erda

Porr ejemplo, supongamo


s
os que un cconjunto de
e datos proporciona ell siguiente histograma
a
para comp
parar con la curva norm
mal:
Grfico 8

En este marco, un coefiiciente de a


asimetra es
e un estad
dstico que sirve como
o indicadorr
cuantitativo
o de la desvviacin de la simetra d
de un histog
grama.
Coeficientte de asime
etra de Fis
sher:
g1 = ((xi x)3//n)/sx3 = (ffi.(zi x)3/n)/sx3.
Coeficientte de asime
etra de Pearson:
g1 =

(q1 + q3 2.m)
2
.
2.m

Propiedade
es:
i)
0 Adems, en este casso, x m M0
Si la assimetra es por la izqui erda: g1 < 0.
ii)

Si hay simetra: g1 = 0. Adem


ms, en este
e caso, x = m = M0

iii)
iv)

Si la assimetra es por la dereccha: g1 > 0.. Adems, en


e este casoo, x m M0
g1 es adimensiona
a
al: no vara al realizar cambios
c
line
eales de la variable.

Parra ello, dividiremos el recorrido d


de la variable en tres
s intervalos;; de tal forrma, que ell
intervalo ce
entral est centrado en
n la media a
aritmtica, es
e decir,
C
Cola
izquierrda

3.3.2. Coe
eficientes de
d apuntam
miento o cu
urtosis.
Loss coeficienttes de currtosis o ap
puntamiento
o dan una medida dee la situac
cin de un
n
histograma
a respecto a la curva normal
n
o cam
mpana de Gauss,
G
dada por la ecuuacin

y su repressentacin es:
e

23
3

Z
Zona centra
al

Cola
C
derechha

As, la curtosiss o apuntam


miento se cclasifica ten
niendo en cuenta
c
histoograma las tres partess
del histogrrama situadas sobre ca
ada una de estos interv
valos:
Un histograma
a es platic
rtico si es ms bajo que
q la curva
a normal enn las colas izquierda y
al
derrecha y mss alto en la zona centra
Un histograma
a es mesoc
crtico si co
oincide con
n la curva normal
n
en laas colas y en la zona
a
cen
ntral
Un histograma
a es leptoc
rtico si es ms alto que
q la curva
a normal enn las colas izquierda y
derrecha y mss bajo en la zona centrral.

24
4

Definicin. Se llama coeficiente de curtosis al estadstico:


g2 = = ((xi x)4/n)/sx4 = (fi.(zi x)4/n)/sx4
o bien, al estadstico:
g2 = g2 3.
Propiedades:
i)
ii)
iii)
iv)

Si el histograma es platicrtico:
g2 < 3 (g2 < 0).
Si el histograma es mesocrtico:
g2 = 3 (g2 = 0).
Si el histograma es leptocrtico:
g2 > 3 (g2 > 0).
g2 es adimensional: no vara al realizar cambios lineales de la variable.

25

También podría gustarte