Tema 1 PDF

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO
ESTAD
ISTICA
Objetivo y Etapas de la Metodologa Estadstica
La Estadstica es la ciencia que se ocupa del estudio de los experimentos aleatorios.
Se entiende por experimento aleatorio el hacer, medir u observar algo bajo
ciertas condiciones, conduciendo a un resultado que no puede predecirse de antemano.
(En contraposicion al experimento aleatorio, el experimento determinstico sera aquel
que conducira a un resultado predecible antes de realizar tal experimento).
No obstante, no todos los experimentos que estan caracterizados por la imposibilidad
de predecir su resultado son susceptibles de ser tratados por la Estadstica, ya que
se requiere ademas que los experimentos satisfagan ciertas condiciones de regularidad
estadstica (a las que nos referiremos en la introduccion del Calculo de Probabilidades).
El objetivo u
ltimo de la Estadstica es obtener conclusiones acerca del comportamiento del experimento aleatorio, sobre la base de lo datos que proporciona la realizacion reiterada del mismo.
Se define tambien la Estadstica como el estudio de la recopilaci
on, organizaci
on,
an
alisis e interpretaci
on de los datos provenientes de las realizaciones experimentales
consideradas.
Teniendo en cuenta la finalidad de la Estadstica, las etapas de la metodologa
estadstica pueden esquematizarse como sigue:
1. Planteamiento del problema: Especificacion del tipo de conclusiones que quieren
extraerse sobre el experimento aleatorio que se estudia.
2. Planificaci
on o dise
no del experimento aleatorio: Establecimiento de la forma de
llevar a cabo el experimento aleatorio en funcion de las conclusiones que quieran
extraerse y buscando que estas sean lo mas fiables posible.
3. Selecci
on de la muestra: Eleccion del procedimiento por el que va a obtenerse la
sucesion de realizaciones experimentales que van a servir de base para la extraccion
de conclusiones.
4. Realizaci
on del experimento aleatorio: Observacion de los resultados de la sucesion
de realizaciones experimentales.
Tras estar cuatro etapas previas, imprescindibles en la practica aunque obviadas en
muchos de los estudios teoricos, se obtienen los datos muestrales, que constituyen
la informacion sobre la que basaremos las conclusiones que se extraigan acerca del
experimento.
Una vez que se dispone de los datos muestrales, las etapas siguientes son las que
configuran la segunda definicion de Estadstica a la que nos hemos referido:
5. Recopilaci
on de los datos: Recogida y anotacion de los datos provenientes de la
observacion de las realizaciones experimentales.
6. Organizaci
on de los datos: Presentacion adecuada de de los datos para su analisis
e interpretacion posteriores.
7. An
alisis de los datos: Extraccion de la informacion relevante contenida en los
datos, a traves de medidas que resumen dicha informacion (y motivadas por el
tipo de conclusiones a las que quiera llegarse).
8. Interpretaci
on de los resultados del analisis de los datos: Extraccion de conclusiones sobre el comportamiento general del experimento aleatorio a partir del
comportamiento parcial reflejado en los datos disponibles.
La formalizacion de estas cuatro u
ltimas etapas de la metodologa incluye conceptos,
resultados y procedimientos que conforman el estudio de la Estadstica. Las tres partes
fundamentales de este estudio son:
Estadstica Descriptiva
Se ocupa del estudio de conceptos, resultados y tecnicas para la recopilacion, organizacion o presentacion y analisis de los datos. Su objetivo es describir la informacion
contenida en los datos, sin pretender extrapolar de esa descripcion parcial una descripcion del comportamiento global del experimento.
Estadstica Inferencial
Se ocupa del estudio de conceptos, resultados y tecnicas para la interpretacion de
los datos. En resumen, su objetivo es aprovechar la informacion contenida en los datos
para extraer conclusiones sobre el comportamiento global del experimento (es decir,
adopta un razonamiento inductivo).
Como esta extraccion de conclusiones se lleva a cabo en condiciones de desconocimiento sobre el comportamiento global del experimento, las conclusiones son susceptibles de error. En este punto, la Estadstica aporta la posibilidad de cuantificar el
error (o, alternativamente, la incertidumbre, la informacion, la confianza, etc.) asociado
a una conclusion.
C
alculo de Probabilidades
Se ocupa del estudio de conceptos y resultados que van a ser las herramientas
matematicas imprescindibles para formalizar adecuadamente los conceptos, resultados
y tecnicas inferenciales. El Calculo de Probabilidades esta guiado por un razonamiento
deductivo, de manera que a partir de la suposicion de que el experimento tiene cierto
comportamiento global puede deducirse si ciertos comportamientos parciales son mas
o menos verosmiles (crebles).
ESTAD
ISTICA DESCRIPTIVA
En lo que sigue supondremos que el experimento aleatorio considerado consiste en
observar o medir una o varias caractersticas sobre los elementos de un conjunto bien
definido.
Elementos de la Estadstica Descriptiva:

terminologa y notaciones
Llamamos poblaci
on al conjunto o coleccion de elementos sobre los que va(n) a observarse la(s) caracterstica(s), e individuos a los elementos del mismo. La naturaleza
de poblaciones e individuos, puede ser real (la poblacion de las piezas producidas en
una fabrica, la poblacion de las reacciones qumicas en un laboratorio que usan cierto
compuesto, etc.) o conceptual (p.e., la poblacion de los n
umeros enteros). El n
umero
de individuos que integran la poblacion recibe el nombre de tama
no poblacional, y
se denotara por N .
Entendemos por variable estadstica la magnitud cuyos valores son las distintas modalidades, aspectos o mediciones numericas que la caracterstica puede tomar
para los individuos de la poblacion en la que se observa. Si se observa una u
nica caracterstica, nos referiremos a ella como variable estadstica unidimensional, mientras que
si se observan simultaneamente dos caractersticas sobre cada individuo, hablaremos de
variable estadstica bidimensional. En general, cuando se observan simultaneamente r
caractersticas, se habla de variables estadsticas r-dimensionales.
En la practica, los datos experimentales disponibles para las Etapas 6-8 de la metodologa estadstica, provienen de la observacion de una o varias caractersticas sobre
algunos individuos seleccionados de la poblacion. Esta seleccion suele obedecer a una
de las dos razones siguientes: o bien la poblacion considerada es muy grande y la
observacion de la(s) caractersticas(s) sobre todos sus individuos resulta inviable o muy
costosa (en terminos economicos y de consumo de tiempo), o bien la observacion de la(s)
caracterstica(s) sobre cada individuo resulta muy compleja o es de tipo destructivo
en cuyo caso se restringe tal observacion a un n
umero reducido de individuos de la
poblacion.
Se denomina muestra de individuos a una sucesion de individuos seleccionados
para la observacion sobre ellos de la variable considerada. Se denomina muestra
de observaciones a la secuencia de los valores correspondientes a una variable
sobre una muestra de individuos. Siempre que no haya lugar a confusion, el termino
muestra se aplica indistintamente para referirse a muestras de individuos y a muestras
de observaciones. Las muestras de individuos mas sencillas son aquellas que se obtienen
seleccionando al azar (con o sin reposicion) individuos de la poblacion. El n
umero
de individuos (repetidos o no) que integran la muestra recibe el nombre de tama
no
muestral, y se denotara por n).
Un tipo especial de muestra, llamado censo, es el que se obtiene seleccionando sin

reposicion todos los individuos de la poblacion.
Se llama dato cada valor de la variable observada sobre un individuo de la muestra.
Sobre la base de estos terminos, el objetivo final de la Estadstica consistira en
obtener conclusiones sobre ciertos rasgos de interes de la variable en la poblacion a
partir de los rasgos de interes de la variable en la muestra, seg
un el esquema de la
figura siguiente:
SELECCI N D E
LA M UESTRA
M
U
E
S
T
R
A
P
O
B
L
A
C
I
r a sgos de la
m u e st r a
r a sgos de la
pobla cin
EXTRACCI N D E
CON CLUSI ON ES
Figura 1. Esquema del Objetivo de la Estadstica
ESTAD
ISTICA DESCRIPTIVA PARA
VARIABLES ESTAD
ISTICAS UNIDIMENSIONALES
Tipos de variables estadsticas unidimensionales
Para las variables estadsticas suelen considerarse dos clasificaciones: seg
un la naturaleza de los valores de la variable, o seg
un su posible rango.
En relacion con la clasificaci
on de acuerdo con la naturaleza de los valores de la
variable, la version mas general de esta clasificacion distingue dos tipos de variables:
variables cuantitativas: cuyos valores pueden expresarse en una escala numerica;
variables cualitativas: cuyos valores no pueden expresarse en una escala
numerica.
En relacion con la clasificaci

on de acuerdo con el rango de los valores de la variable,
se distinguen dos tipos de variables:
variables discretas: cuando toma valores aislados (es decir, un n
umero finito
o infinito numerable de posibles valores distintos, como ocurre, p.e., con los recuentos);
variables continuas: cuando, en principio, la variable podra tomar valores
en un conjunto que contiene un intervalo con extremos diferentes (es decir, una
infinidad no numerable de posibles valores distintos aunque, en la practica, y
debido a los mecanismos de medicion disponibles y a las unidades de medida
que puedan apreciarse, no se distingan de hecho mas que valores aislados, como
ocurre, p.e., con las alturas o los instantes de tiempo).
Recopilaci
on de datos muestrales unidimensionales
La primera etapa de la metodologa estadstica, es la de la recogida y anotacion de los
datos correspondientes a la observacion de la variable considerada sobre los individuos
de la muestra seleccionada.
Esta recopilacion de datos se lleva a cabo anotando el valor de la variable en cada
uno de los individuos de la muestra.
Organizaci
on de datos muestrales unidimensionales
Una vez que los datos muestrales se han recopilado, se procede a la organizacion
de los mismos para sus posterior analisis. Para ello se consideran las distribuciones de
frecuencias, que pueden basarse en diferentes nociones de frecuencia. En funcion del
analisis que quiera llevarse a cabo, las distintas nociones son mas o menos u
tiles.
Supongamos que se considera una variable estadstica X que, observada sobre una
muestra de tama
no n, toma k valores (modalidades, versiones, o valoraciones numericas)
distintos, x1 , x2 , . . . , xk :
Distribuciones de frecuencias
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia absoluta del valor xi es el
n
umero de individuos de la muestra para los que X toma el valor xi . Notacion:
ni (tambien se emplea n(xi )).
Claramente, las frecuencias absolutas cumplen que:
ni N,
0 ni n,
n1 + n2 + . . . , nk = n.
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia relativa del valor xi es la

proporcion de individuos de la muestra para los que X toma el valor xi . Notacion:
fi (tambien se emplea f (xi )).
Las frecuencias relativas cumplen que:

fi Q,
0 fi 1,
f1 + f2 + . . . , fk = 1.
En muchos estudios en diversos campos (y especialmente en algunas representaciones y programas de ordenador), en lugar de considerar proporciones se opta
por los porcentajes. En este sentido, cualquiera que sea i {1, 2, . . . , k}, el
porcentaje asociado al valor xi es el n
umero de individuos por cada cien en la
muestra para los que X toma el valor xi . Los porcentajes se obtienen de las
frecuencias relativas multiplicando estas por 100.
Los dos conceptos precedentes tienen sentido tanto para variables cuantitativas como
para variables cualitativas, y es la forma mas natural e inmediata de organizar los datos
muestrales. Es evidente que, conocido el tama
no muestral n, es indistinto conocer las
frecuencias relativas o las absolutas, puesto que estan conectadas por las relaciones:
ni
fi = ,
ni = n fi , i = 1, 2, . . . , k.
n
Los dos conceptos siguientes solo son aplicables para variables cuantitativas (aunque,
desde una perspectiva formal tambien podran establecerse para variables cualitativas
ordinales). La justificacion para introducir estas nuevas nociones es que sirven de base
para la formalizacion y determinacion de ciertas medidas del Analisis de Datos (mas
concretamente, los cuantiles).
Supongamos, sin perdida de generalidad, que los k valores distintos, x1 , x2 , . . . , xk
de X en la muestra estan ordenados en sentido creciente, es decir, x1 < x2 < . . . < xk :
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia acumulada absoluta del
valor xi es el n
umero de individuos de la muestra para los que X toma valor
inferior o igual a xi . Notacion: Ni (tambien se emplea N (xi )).
Las frecuencias acumuladas absolutas satisfacen que:
Ni N,
0 Ni1 Ni n,
Nk = n.
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia acumulada relativa del

valor xi es la proporcion de individuos de la muestra para los que X toma valor
inferior o igual a xi . Notacion: Fi (tambien se emplea F (xi )).
Las frecuencias acumuladas absolutas satisfacen que:
Fi Q,
0 Fi1 Fi 1,
Fk = 1.
Es evidente que, conocido el tama

no muestral n, es indistinto conocer las frecuencias
relativas, las absolutas, las acumuladas relativas o las acumuladas absolutas, puesto que
estan conectadas por las relaciones siguientes:
Ni = n1 + . . . + ni = n f1 + . . . + n fi = n Fi , i = 1, 2, . . . , k,
n1 + . . . + ni
Ni
=
, i = 1, 2, . . . , k,
n
n
n1 = N1 = n F1 = n f1 , ni = Ni Ni1 = n Fi n Fi1 = n fi , i = 2, . . . , k,
F i = f1 + . . . + fi =
f1 = F 1 =
N1
n1
Ni Ni1
ni
= , fi = Fi Fi1 =
= , i = 2, . . . , k.
n
n
n
n
Se denomina distribuci
on de frecuencias de una variable estadstica X
en una muestra a la sucesion de los distintos valores de la variable estadstica en la
muestra junto con sus correspondientes frecuencias en esa muestra.
Para una variable y una muestra fijadas pueden determinarse al menos dos distribuciones de frecuencias (las absolutas y las relativas) y, si se trata de una variable
cuantitativa, se puede hablar de cuatro distribuciones de frecuencias (absolutas, relativas, acumuladas absolutas y acumuladas relativas).
En forma analoga, tiene sentido hablar tambien de la distribuci
on de porcentajes
de una variable en una muestra.
Representaciones tabulares de las distribuciones

Las distribuciones de frecuencias suelen presentarse a traves de representaciones
tabulares o graficas. Las representaciones tabulares en el caso unidimensional
consisten en disponer de forma horizontal (o vertical) una tabla con dos filas (respectivamente, dos columnas) de modo que en la primera aparezcan los valores de la variable
y en la segunda se recojan las frecuencias correspondientes.
xi
x1
x2
ni
n1
n2
...
...
xi
fi
x1
f1
x2
..
.
f2
..
.
xk
fk
xk
nk
Las tablas pueden adaptarse y completarse para representar las distintas distribuciones de frecuencias de una variable en una muestra, o para representar varias de estas
distribuciones simultaneamente como, por ejemplo:
xi
x1
x2
ni
n1
n2
...
nk
fi
f1
f2
...
fk
Fi
F1
F2
...
Fk
...
xk
ficas ma
s usuales de distribuciones
Representaciones gra
Las representaciones gr
aficas dependen del tipo de variable que se este estudiando.
Las representaciones graficas mas utilizadas con el fin de dar una primera impresion
visual del comportamiento de una variable en una muestra son: el diagrama de barras,
el diagrama de sectores y el histograma.
Para el diagrama de barras se consideran dos ejes coordenados, representandose
sobre el eje de abscisas los distintos valores de la variable estadstica en la muestra
y en el de ordenadas las frecuencias (habitualmente relativas) correspondientes.
Sobre cada punto asociado a un valor de la variable en la muestra se levanta una
barra con altura igual a la frecuencia de tal valor. En ocasiones se prescinde del
eje de ordenadas, y en su lugar se incluyen los valores de las frecuencias (a menudo
expresados en terminos de porcentajes) sobre las barras.
Las escalas de los dos ejes no suelen coincidir (maxime teniendo en cuenta que el
rango de las frecuencias relativas es el intervalo [0, 1] y el de valores de la variable
es generalmente mas amplio) y el eje de ordenadas no necesariamente tiene que
pasar por el origen de coordenadas.
En el caso en que la variable considerada sea cualitativa, el diagrama de barras
tambien puede aplicarse. En esta situacion los valores de la variable suelen representarse en el eje de abscisas por puntos o intervalos manteniendose una distancia
constante entre cada dos valores consecutivos.
Si, por ejemplo, la distribucion de frecuencias absolutas viene dada por:
xi
ni
entonces la distribucion de frecuencias relativas es la siguiente:

xi
fi
0.10
0.15
0.25
0.35
0.1
0.05
de forma que su diagrama de barras es el que aparece en la Figura 2.

Para el diagrama de sectores se considera un crculo dividido en tantos sectores como valores distintos toma la variable en la muestra. Cada valor se representa entonces por un sector con area (y, por tanto, con arco) proporcional a la
frecuencia de dicho valor. Los diferentes valores se distinguen mediante diferentes
colores o tramas.
1,0
0,8
0,6
0,4
0,2
0,0
-2
-1
Figura 2. Diagrama de barras para la distribucion de frecuencias anterior

xi
ni
Partido A Partido B Partido C Partido D

27
43
15
entonces la distribucion de frecuencias relativas es la siguiente:

xi
fi
Partido A Partido B Partido C Partido D

0.30
0.47
0.16
0.07
de forma que el diagrama de sectores correspondiente es el que aparece en la

Figura 3.
Figura 3. Diagrama de sectores para los datos anteriores
En el caso de variables continuas con un n

umero elevado de modalidades la representacion graficas mas utilizada con el fin de visualizar facilmente la distribucion de
frecuencias de una variable en una muestra es el histograma.
10
El histograma esta inspirado en una idea similar a la del diagrama de barras,

aunque teniendo en cuenta que las amplitudes de los intervalos en que se suelen
agrupar los datos en variables continuas no necesariamente coinciden, y que ese
aspecto debe quedar reflejado en la representacion grafica. Para el histograma se
consideran dos ejes coordenados, representandose sobre el eje de abscisas los distintos intervalos de la agrupacion. Sobre cada intervalo, se levanta un rectangulo
con area igual a la frecuencia relativa de ese intervalo (es decir, con altura igual
al cociente [frecuencia relativa]/[amplitud]).
Como en el diagrama de barras, las escalas de los dos ejes no suelen coincidir y el
eje de ordenadas no necesariamente tiene que pasar por el origen de coordenadas.
Ii
[2, 0]
(0, 3]
ni
(3, 4] (4, 8]
7
entonces la distribucion de frecuencias relativas fi y la sucesion de cocientes fi /ai

(con ai = amplitud del i-esimo valor de intervalo) es la siguiente:
Ii
[2, 0]
(0, 3]
(3, 4]
(4, 8]
fi
0.15
0.3
0.35
0.2
0.075
0.1
0.35
0.05
fi /ai
de forma que el histograma correspondiente es el que aparece en la Figura 4.

1,0
0,8
0,6
0,4
0,2
0,0
-2
-1
Figura 4. Histograma para la distribucion de frecuencias anterior
n de la funcio
n de distribucio
n emprica esta asociada
La representacio
al manejo de las distribuciones acumuladas y se basa en la definicion de esta funcion,
que se establece como sigue:
Sea X una variable estadstica cuantitativa, que en una muestra toma k valores
distintos x1 , x2 , . . . , xk , que supondremos denotados en sentido creciente (es decir, x1 <
x2 < . . . < xk ), con frecuencias relativas respectivas f1 , f2 , . . . , fk .
11
Se define la funci
on de distribuci
on emprica de X en la muestra como la
aplicacion F : R R tal que para todo x R:
F (x) = proporcion de individuos de la muestra para los que X toma valores x .

Esta funcion esta claramente vinculada a la distribucion de frecuencias acumuladas
relativas. Mas concretamente, se cumple que cualquiera que sea i {1, 2, . . . , k}:
F (xi ) = Fi .
Para proceder a la representacion grafica de la funcion F , vamos a analizar como vendra
definida para los restantes valores en R, en funcion de las frecuencias relativas y de las
acumuladas relativas (que supondremos conocidas).
Como hemos admitido que
x1 < x 2 < . . . < x k
y se define
fi = proporcion de individuos de la muestra para los que X = xi ,
se concluye que:
Si x (, x1 ):
F (x) = 0,
ya que en este caso no hay individuos en la muestra para los que X x.
Si x [xi1 , xi ) (con i {2, . . . , k}):
F (x) = Fi1 = f1 + . . . + fi1 ,
ya que los individuos en la muestra para los que X x son aquellos para los que
X toma uno de los valores x1 o . . . o xi1 (que son los u
nicos valores de la variable
en la muestra inferiores o iguales a cualquier x [xi1 , xi )).
Si x [xk , +):
F (x) = 1,
ya que en este caso todos los individuos en la muestra satisfacen que X x.
En resumen, la expresion general de la funcion de
guiente:
F 1 = f1
F 2 = f1 + f2
F (x) =
..
Fk1 = f1 + . . . + fk1
distribucion emprica es la sisi x < x1

si x1 x < x2
si x2 x < x3
..
.
si xk2 x < xk1
si x xk .
12
1
..
.
Fi1
..
.
F2
F1
x1
20
x2
40
60
80
x3 . . . 140
xi1
100
120
xi . . . 180
xk
160
200
Figura 5. Funcion de distribucion emprica de una variable en una muestra
y la representacion grafica general de la funcion de distribucion emprica es la que

aparece en la Figura 5.
Como se
nalamos anteriormente, conocido el tama
no muestral n, es indistinto conocer las frecuencias relativas o las absolutas (acumuladas o no), y tambien ocurre lo
mismo con la funcion de distribucion emprica. En otras palabras, la funcion de distribucion emprica caracteriza de forma u
nica la distribucion de frecuencias relativas de
una variable en una muestra.
Para ilustrar esta u
ltima afirmacion supongamos que la funcion de distribucion
emprica de una variable estadstica X en cierta muestra es la representada en la Figura
6.
1
0.71
0.38
0.14
0
20
40
60
80
100
120
140
160
180
200
Figura 6. Ejemplo de funcion de distribucion emprica de una variable X en cierta muestra
La expresion de esta funcion es la siguiente:
0.14
F (x) =
0.38
0.71
si
si
si
si
si
x < 1
1 x < 1
1x<5
5x<8
x 8.
13
A la vista de la construccion de la funcion de distribucion en la situacion generica,

los distintos valores de la variable en la muestra seran los puntos en los que la funcion
de distribucion emprica cambia de valor, es decir:
x1 = 1, x2 = 1, x3 = 5, x4 = 8.
Ademas:
F1 = F (x1 ) = 0.14, F2 = F (x2 ) = 0.38, F3 = F (x3 ) = 0.71, F4 = F (x4 ) = 1,
de donde se tiene que la distribucion de frecuencias acumuladas relativas viene dada
por:
xi
Fi
0.14
0.38
0.71
y, por lo tanto, la distribucion de frecuencias relativas es la siguiente:

xi
fi
0.14
0.24
0.33
0.29
Resulta evidente a partir de la representacion grafica de la funcion de distribucion

emprica en el caso general, que dicha funcion satisface siempre las propiedades siguientes:
Prop. 1. lim F (x) = 1.
x
Prop. 2. lim F (x) = 0.

x
Prop. 3. F es no decreciente, es decir:

x, y R, con x < y F (x) F (y).
Prop. 4. F es continua por la derecha en todos los puntos de R, es decir, cualquiera que
sea x0 R se cumple que
F (x0 +) = lim+ F (x) =
xx0
lim
xx0 , x>x0
F (x) = F (x0 )),
yu
nicamente es discontinua por la izquierda (y, por lo tanto, discontinua) en los
puntos correspondientes a los distintos valores que la variable toma en la muestra.
Prop. 5. F es una funcion escalonada (es decir, es constante entre cada dos puntos de
discontinuidad consecutivos).
Las cinco propiedades anteriores caracterizan a la funcion de distribucion emprica
(y, en consecuencia, a la distribucion de frecuencias asociada). En otras palabras,
para cualquier funcion que satisfaga Prop. 1-Prop. 5, puede construirse una variable
estadstica cuya funcion de distribucion emprica coincida con la dada.
14
Observaci
on: Como acabamos de indicar, F (x0 +) = F (x0 ) = proporcion de individ
uos de la muestra para los que X x0 . Por otro lado, a partir de la representacion
grafica en la Figura 7, puede deducirse que:
F (x0 ) = lim F (x) =
xx0
lim
xx0 , x<x0
F (x)
= proporcion de individuos de la muestra para los que X < x0 .

A partir de este resultado y de la Propiedad 4 pueden determinarse en funcion de F
las proporciones de individuos de la muestra para los que X que toma valores en un
intervalo cualquiera que se especifique. Concretamente, para todo a, b R con a < b:
proporcion de individuos de la muestra para los que X (, a] = F (a) ;
proporcion de individuos de la muestra para los que X (, a) = F (a) ;
proporcion de individuos de la muestra para los que X (a, +) = 1 F (a) ;
proporcion de individuos de la muestra para los que X [a, +) = 1 F (a) ;
proporcion de individuos de la muestra para los que X (a, b] = F (b) F (a) ;
proporcion de individuos de la muestra para los que X [a, b] = F (b) F (a) ;
proporcion de individuos de la muestra para los que X (a, b) = F (b) F (a) ;
proporcion de individuos de la muestra para los que X [a, b) = F (b) F (a) .
An
alisis de datos unidimensionales
El Analisis de Datos tiene por finalidad extraer de estos la informacion relevante,
teniendo en cuenta que esta informacion va a servir de base habitualmente para la
interpretacion posterior de los datos. Cuando se manejan datos unidimensionales, la
informacion mas relevante suele ser la relativa a ciertas medidas representativas de la
distribucion de frecuencias. Entre estas medidas, las mas u
tiles suelen ser:
Las medidas de tendencia central.
Las medidas de posicion.
Las medidas de dispersion.
las medidas de forma.
Medidas de tendencia central

Se trata de medidas correspondientes a valores en torno a los que oscilan las observaciones de la variable en la muestra. Las tres medidas de tendencia central mas
utilizadas son: media, mediana y moda.
15
La media de una variable estadstica en una muestra (o, mas propiamente, la

media de su distribucion de frecuencias) se define como la media aritmetica de los
datos muestrales. Es decir, si X es una variable (necesariamente cuantitativa) que en
una muestra de n individuos ha dado lugar a los n datos muestrales d1 , d2 , . . . , dn , la
media de X es el n
umero real que denotaremos por X dado por:
X=
d1 + d2 + . . . + dn
.
n
Como diferentes datos muestrales pueden tomar el mismo valor, la definicion precedente puede expresarse alternativamente en terminos de los valores distintos de la variable en la muestra. De esta manera, si X es una variable cuantitativa que en una
muestra de n individuos toma k valores distintos x1 , x2 , . . . , xk , con frecuencias absolutas (o relativas) respectivas n1 , n2 , . . . , nk (o, respectivamente f1 , f2 , . . . , fk ), entonces:
k
X=
1X
x1 n1 + x2 n2 + . . . + xk nk
=
xi ni ,
n
n i=1
X = x1 f 1 + x2 f 2 + . . . + xk f k =
k
X
xi f i .
i=1
Si, por ejemplo, la distribucion de frecuencias absolutas de X en una muestra de 20

individuos viene dada por:
entonces:
X=
xi
ni
2 2 1 3 + 0 5 + 1 7 + 4 2 + 5 1
13
=
= 0.65.
20
20
La media de una distribucion de frecuencias satisface las propiedades siguientes:

Prop. 1. Si X es una variable estadstica que en una muestra toma k valores distintos
x1 , x2 , . . . , xk , con frecuencias relativas respectivas f1 , f2 , . . . , fk , y g : R R es
una aplicacion cualquiera, entonces la media de la variable estadstica Y = g(X)
puede hallarse a partir de la distribucion de X por la expresion:
Y = g(X) =
k
X
g(xi ) fi .
i=1
(Esta propiedad indica que para hallar la media una variable Y que es funcion
de otra X, no es necesario hallar la distribucion de frecuencias de Y para determinar su media, sino que esta puede expresarse en terminos de la distribucion de
frecuencias de la variable X. La utilidad principal de esta propiedad es la de que
sirve de base para la demostracion de otras propiedades).
16
Prop. 2. Si X es una variable estadstica que en una muestra tiene distribucion de frecuencias degenerada en el valor c R (es decir, que en todos los individuos de la
muestra el valor de X es igual a c), entonces X = c. Esta propiedad se expresa
usualmente como sigue:
c = c.
Prop. 3. Cualquiera que sea c R y la variable estadstica X, se cumple que:
c X = c X.
X + c = X + c.
Prop. 5. Si X es una variable estadstica y g : R R, h : R R son dos aplicaciones cualesquiera, entonces la media de la variable estadstica Y = g(X) + h(X) satisface
que:
g(X) + h(X) = g(X) + h(X).
Finalmente, las dos u
ltimas propiedades formalizan el hecho de que la media de
una distribucion de frecuencias puede interpretarse como una medida de su tendencia
central.
Prop. 6. Sea X es una variable estadstica que en una muestra toma k valores distintos
x1 , x2 , . . . , xk , con frecuencias relativas respectivas f1 , f2 , . . . , fk . Si se define la
funcion
G : R R t.q. c R : G(c) = (X
c)2
k
X
(xi c)2 fi .
i=1
La funcion G admite mnimo absoluto en el punto c = X.

(La interpretacion de esta propiedad es la siguiente: la media es el punto que
menos dista -en media de los cuadrados de las distancias eucldeas- de los valores
de la variable en la muestra).
La mediana de una variable estadstica en una muestra (o, mas propiamente,
la mediana de su distribucion de frecuencias) puede definirse de dos formas equivalentes). Aunque la segunda de estas definiciones es conceptualmente mas compleja que
la primera, permitira la extension de la nocion de mediana a medidas de posicion (los
cuantiles).
17
n de mediana, formaliza la idea de que es una medida de

La primera definicio
posicion intermedia. As, si X es una variable estadstica (necesariamente cuantitativa)
que en una muestra de n individuos ha dado lugar a los n datos muestrales d1 , d2 , . . . , dn ,
que supondremos denotados siguiendo su ordenacion en sentido creciente (es decir,
d1 d2 . . . dn ), se define la mediana de la distribucion de X como sigue:
si n es impar, la mediana es u
nica y viene dada por el valor del dato que ocupa
la posicion central en la sucesion creciente de los datos, es decir, el valor:
Me(X) = d n+1 .
2
si n es par, la mediana no necesariamente es u

nica y viene dada por el valor o
valores comprendidos entre los dos datos que ocupan las posiciones centrales en
la sucesion creciente de los mismos, es decir:
Me(X) = cualquier valor entre d n2 y d n2 +1 (incluyendo estos).
Si n es par, la mediana sera u
nica si y solo si los dos datos que ocupan las posiciones
centrales coinciden.
Para ilustrar la aplicacion de esta definicion, podemos considerar de nuevo la distribucion de frecuencias
2
1
0
1
4
5
xi
ni
a la que le correspondera la siguiente sucesion de datos ordenados en sentido creciente:

d1 = d2 = 2, d3 = d4 = d5 = 1, d6 = d7 = d8 = d9 = d10 = 0,
d11 = d12 = d13 = d14 = d15 = d16 = d17 = 1, d18 = d19 = 4, d20 = 5.
Como n = 20 es par, tendremos que:
Me(X) = cualquier valor en el intervalo [d10 , d11 ] = cualquier valor en [0, 1].
Observaci
on: En ocasiones, en el caso de existencia de varias medianas para una
distribucion, se necesita elegir una de ellas como representante de las demas. En tales
situaciones suele optarse por el punto medio del intervalo determinado por las medianas,
si bien se trata de un simple convenio y no de la definicion de mediana para ese caso,
que incluira todos los valores del intervalo.
n de mediana, formaliza la idea de que es una medida que
La segunda definicio
deja a cada lado al menos la mitad de los datos muestrales. As, si X es una variable
estadstica que en una muestra tiene la funcion de distribucion emprica F , se define la
mediana de la distribucion de frecuencias de X como el valor o los valores Me(X) que
cumplen que:
18
proporcion de individuos de la muestra para los que X Me(X) 0.5 (C.1),
proporcion de individuos de la muestra para los que X Me(X) 0.5 (C.2).
Las dos condiciones precedentes pueden expresarse en terminos de la funcion de

distribucion emprica. Concretamente se define la mediana de la distribucion de frecuencias de X como el valor o los valores de Me(X) que satisfacen la doble desigualdad
siguiente:
F (Me(X)) 0.5 F (Me(X)).
Para determinar la(s) mediana(s) a partir de la funcion de distribucion emprica, se
aplica la siguiente:
n pra
ctica de la mediana de X a partir de F :
Regla de determinacio
[CASO 1] Si @ x R t.q. F (x) = 0.5, entonces: la mediana es u
nica y coincide con
el menor valor de X en el que la funcion de distribucion emprica es estrictamente
superior a 0.5.
[CASO 2] Si x R t.q. F (x) = 0.5, entonces: la mediana no es u
nica y sera
mediana cualquier valor real cuya funcion de distribucion emprica sea igual a
0.5, as como el menor valor de X en el que la funcion de distribucion emprica es
estrictamente superior a 0.5.
Esta regla puede exponerse alternativamente como sigue:
[CASO 1] Si @ i {1, 2, . . . , k} t.q. Fi = 0.5, entonces: la mediana es u
nica y
coincide con el menor valor xi de X para el que Fi > 0.5 (es decir, Me(X) = x1
si F1 > 0.5, = xi si Fi1 < 0.5 < Fi , i {2, . . . , k}).
[CASO 2] Si i {1, 2, . . . , k 1} t.q. Fi = 0.5, entonces: la mediana es cualquier
valor en el intervalo [xi , xi+1 ].
Para ilustrar la aplicacion de esta segunda definicion sobre el ejemplo de la distribucion de frecuencias
xi
2
1
0
1
4
5
ni
basta con determinar la correspondiente distribucion de frecuencias acumuladas relativas:

2
1
0
1
4
5
xi
Fi
0.1
0.25
0.5
0.85
0.95
Como nos encontramos en una situacion del tipo del CASO 2, ya que F3 = 0.5, la
aplicacion de la regla anterior indica que, como ya vimos al aplicar la definicion primera:
Me(X) = cualquier valor en el intervalo [x3 , x4 ] = cualquier valor en el intervalo [0, 1].
19
La mediana de una distribucion de frecuencias satisface las propiedades siguientes:

Prop. 1. Si X es una variable estadstica que en una muestra tiene distribucion de frecuencias degenerada en el valor c R, entonces Me(X) = c. Esta propiedad se
expresa usualmente como Me(c) = c.
Me(c X) = c Me(X).
Me(X + c) = Me(X) + c.
La moda de una variable estadstica en una muestra (o, mas propiamente, la moda
de su distribucion de frecuencias) se define como el valor o los valores de la variable
en la muestra, Mo(X), que aparecen con mayor frecuencia entre los datos muestrales.
Esta medida es calculable para cualquier tipo de variable estadstica y su determinacion
practica es inmediata.
xi
ni
entonces:
Mo(X) = 1.
Una distribucion de frecuencias se denomina unimodal, si admite moda u
nica, bimodal si admite dos y, en general, multimodal si admite varias modas.
La moda de una distribucion de frecuencias satisface las propiedades siguientes:
Prop. 1. Si X es una variable estadstica que en una muestra tiene distribucion de frecuencias degenerada en el valor c R, entonces Mo(X) = c. Esta propiedad se
expresa usualmente como Mo(c) = c.
Mo(c X) = c Mo(X).
Mo(X + c) = Mo(X) + c.
20
n
Medidas de posicio
Son medidas que generalizan el concepto de mediana, en el sentido de que dejan
a ambos lados al menos ciertas proporciones (no necesariamente la mitad, como en el
caso de la mediana) prefijadas de datos muestrales.
Mas concretamente, si X es una variable estadstica cuantitativa que en una muestra
tiene la funcion de distribucion emprica F , fijada una proporcion 0, 1), se define el
cuantil de orden de la distribucion de frecuencias de X como el valor o los valores
C (X) que cumplen que:
proporcion de individuos de la muestra para los que X C (X) 1 (C.1),
[proporcion de individuos de la muestra para los que X C (X) (C.2).

Las dos condiciones precedentes pueden expresarse en terminos de la funcion de
distribucion emprica. Concretamente se define el cuantil de orden de la distribucion
de frecuencias de X como el valor o los valores C (X) que satisfacen la doble desigualdad
siguiente:
F (C (X)) F (C (X)).
Al igual que para la mediana, para determinar el(los) cuantil(es) a partir de la
funcion de distribucion emprica, se aplica la regla siguiente:
n pra
ctica del cuantil de orden de X a partir
Regla de determinacio
de F :
[CASO 1] Si @ i {1, 2, . . . , k} t.q. Fi = , entonces: la mediana es u
nica y
coincide con el menor valor xi de X para el que Fi > (es decir, C (X) = x1 si
F1 > , = xi si Fi1 < < Fi , i {2, . . . , k}).
[CASO 2] Si i {1, 2, . . . , k 1} t.q. Fi = , entonces: la mediana es cualquier
valor en el intervalo [xi , xi+1 ].
Para ilustrar la aplicacion de esta definicion para hallar el cuantil de orden 0.75
sobre el ejemplo de la distribucion de frecuencias
xi
ni
recordamos que la correspondiente distribucion de frecuencias acumuladas relativas

viene dada por:
xi
Fi
0.1
0.25
0.5
0.85
0.95
21
Como nos encontramos en una situacion del tipo del CASO 1, ya que F3 = 0.5 <
75/100 < 0.85 = F4 , la aplicacion de la regla anterior indica que, como ya vimos al
aplicar la definicion primera:
C0.75 (X) = x4 = 1.
Como casos particulares de cuantiles, se consideran los cuartiles, los deciles y los
percentiles (estos u
ltimos los mas empleados en la practica).
Se define el cuartil de orden r {1, 2, 3} de la distribucion de frecuencias de X
e una muestra como el valor Qr (X) = Cr/4 (X).
Se define el decil de orden r {1, 2, . . . , 9} de la distribucion de frecuencias de X
e una muestra como el valor Dr (X) = Cr/10 (X).
Se define el percentil de orden r {1, 2, . . . , 99} de la distribucion de frecuencias
de X e una muestra como el valor Pr (X) = Cr/100 (X).
A menudo, no solo interesa determinar los percentiles de un orden perfijado, sino
que fijado un valor puede interesar saber para que orden es un posible percentil. Se
define el rango percentil de un valor x0 en una distribucion de frecuencias muestral
de X como el r {1, 2, . . . , 99} tal que Pr (X) = x0 .
n
Medidas de dispersio
Se trata de medidas que cuantifican el grado de variabilidad, variacion o dispersion
de los datos muestrales de variables cuantitativas. Dentro de las medidas de dispersion
podemos distinguir dos tipos:
el de las medidas que hacen referencia a una medida de tendencia central (es
decir, miden el grado de dispersion de los datos muestrales con respecto a alguna
medida de tendencia centra -usualmente media o mediana-);
el de las medidas que no hacen referencia a medidas de tendencia central, sino que
cuantifican la dispersion de todos los datos (o algunos especialmente relevantes)
con respecto a los demas (o ciertos otros).
La varianza de una variable estadstica en una muestra (o, mas propiamente, la
varianza de su distribucion de frecuencias) se define como la media aritmetica de los
cuadrados de las distancias eucldeas entre cada uno de los datos muestrales y la media.
Es decir, si X es una variable (necesariamente cuantitativa) que en una muestra de n
individuos ha dado lugar a los n datos muestrales d1 , d2 , . . . , dn , la varianza de X es el
2
n
umero real que denotaremos indistintamente por Var(X) y por SX
. dado por:
(d1 X)2 + (d2 X)2 + . . . + (dn X)2
Var(X) =
,
n
es decir:
Var(X) = (X X)2 =
k
X
(xi X)2 fi .
i=1
22

xi
ni
entonces, como X = 0.65:

1
(2 0.65)2 2 + (1 0.65)2 3 + (0 0.65)2 5
20
66.55
= 3.3275.
+(1 0.65)2 7 + (4 0.65)2 2 + (5 0.65)2 1 =
20
Var(X) =
La varianza de una distribucion de frecuencias satisface las propiedades siguientes:

Prop. 1. Var(X) 0.
Prop. 2. Var(X) = 0 si y solo si X es una variable estadstica que en la muestra tiene
distribucion de frecuencias degenerada en un valor c R (es decir, una variable
estadstica u
nicamente puede tener dispersion nula si toma el mismo valor en
todos los individuos de la muestra).
Var(c X) = c2 Var(X)
(es decir, si los valores de la variable sufren un cambio de escala, la dispersion
se modifica pero a traves del cuadrado del factor de escala).
Var(X + c) = Var(X)
(es decir, si los valores de la variable sufren una traslacion, como la media se
traslada en forma analoga la dispersion no se modifica).
Prop. 5. La varianza de una variable admite la expresion alternativa siguiente:
Var(X) = X 2 (X)2 =
k
X
i=1
x2i fi
k
X
i=1
!2
xfi
La varianza presenta el inconveniente de que los valores extremos de la variable

tienen una enorme influencia en su valor, pero las ventajas de su uso son demasiado
claras como para que este inconveniente vaya en detrimento de su empleo. Ademas, ese
inconveniente puede subsanarse en parte reemplazando la descripcion de la dispersion
mediante la varianza por su descripcion a traves de la raz cuadrada positiva de la
varianza, que tiene las mismas unidades que la variable. De este modo:
La desviaci
on tpica de una variable estadstica en una muestra (o, mas propiamente, la desviacion tpica de su distribucion de frecuencias) se define como la raz
cuadrada de su varianza, es decir, como el valor:
v
u k
uX
SX = t (xi X)2 fi .
i=1
Asimismo, cuando se comparar dos variables de ordenes de magnitud, escalas de

medida muy diferentes o unidades muy diversas, puede interesar dar una medida de la
dispersion relativizada. Una posible medida para esta comparacion es la siguiente:
El coeficiente de variaci
on de Pearson de una variable estadstica en una
muestra se define como el cociente:
qP
k
2
SX
i=1 (xi X) fi
CV (X) =
=
.
X
X
Dentro de las medidas de dispersion que se definen sin referencia a una medida de
tendencia central. las mas empleadas son las siguientes:
El recorrido de una variable estadstica (necesariamente cuantitativa) en una muestra se define como la diferencia entre el mayor y el menor valor de la variable en la
muestra, es decir, con la notacion usual considerada hasta el momento, la diferencia
xk x1 .
El recorrido intercuartlico de una variable estadstica (necesariamente cuantitativa) en una muestra se define como la diferencia entre el quartil de orden 3 y el de
orden 1 de la variable en la muestra, es decir, la diferencia Q3 (X) Q1 (X).
Las ventajas del recorrido intercuartlico frente al recorrido son: que ofrece una
vision de la dispersion menos influenciada por los valores muy extremos.
23

Tema 1 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1 PDF

Cargado por

Copyright:

Formatos disponibles

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

Elementos de la Estadstica Descriptiva:

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

Un tipo especial de muestra, llamado censo, es el que se obtiene seleccionando sin

Figura 1. Esquema del Objetivo de la Estadstica

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

En relacion con la clasificaci

Cualquiera que sea i {1, 2, . . . , k}, la frecuencia relativa del valor xi es la

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

Las frecuencias relativas cumplen que:

Cualquiera que sea i {1, 2, . . . , k}, la frecuencia acumulada relativa del

Es evidente que, conocido el tama

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

Representaciones tabulares de las distribuciones

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

entonces la distribucion de frecuencias relativas es la siguiente:

de forma que su diagrama de barras es el que aparece en la Figura 2.

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

Figura 2. Diagrama de barras para la distribucion de frecuencias anterior

Si, por ejemplo, la distribucion de frecuencias absolutas viene dada por:

Partido A Partido B Partido C Partido D

entonces la distribucion de frecuencias relativas es la siguiente:

Partido A Partido B Partido C Partido D

de forma que el diagrama de sectores correspondiente es el que aparece en la

Figura 3. Diagrama de sectores para los datos anteriores

En el caso de variables continuas con un n

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

El histograma esta inspirado en una idea similar a la del diagrama de barras,

entonces la distribucion de frecuencias relativas fi y la sucesion de cocientes fi /ai

de forma que el histograma correspondiente es el que aparece en la Figura 4.

Figura 4. Histograma para la distribucion de frecuencias anterior

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

F (x) = proporcion de individuos de la muestra para los que X toma valores x .

fi = proporcion de individuos de la muestra para los que X = xi ,

distribucion emprica es la sisi x < x1

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

Figura 5. Funcion de distribucion emprica de una variable en una muestra

y la representacion grafica general de la funcion de distribucion emprica es la que

Figura 6. Ejemplo de funcion de distribucion emprica de una variable X en cierta muestra

La expresion de esta funcion es la siguiente:

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

A la vista de la construccion de la funcion de distribucion en la situacion generica,

y, por lo tanto, la distribucion de frecuencias relativas es la siguiente:

Resulta evidente a partir de la representacion grafica de la funcion de distribucion

Prop. 2. lim F (x) = 0.

Prop. 3. F es no decreciente, es decir:

F (x) = F (x0 )),

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

= proporcion de individuos de la muestra para los que X < x0 .

proporcion de individuos de la muestra para los que X (, a] = F (a) ;

proporcion de individuos de la muestra para los que X (, a) = F (a) ;

proporcion de individuos de la muestra para los que X (a, +) = 1 F (a) ;

proporcion de individuos de la muestra para los que X [a, +) = 1 F (a) ;

proporcion de individuos de la muestra para los que X (a, b] = F (b) F (a) ;

proporcion de individuos de la muestra para los que X [a, b] = F (b) F (a) ;

proporcion de individuos de la muestra para los que X (a, b) = F (b) F (a) ;

proporcion de individuos de la muestra para los que X [a, b) = F (b) F (a) .

Medidas de tendencia central

Estadstica - 2o de Qumicas - UNIVERSIDAD DE OVIEDO

La media de una variable estadstica en una muestra (o, mas propiamente, la

Si, por ejemplo, la distribucion de frecuencias absolutas de X en una muestra de 20