Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 1 PDF
Tema 1 PDF
ESTAD
ISTICA
Objetivo y Etapas de la Metodologa Estadstica
La Estadstica es la ciencia que se ocupa del estudio de los experimentos aleatorios.
Se entiende por experimento aleatorio el hacer, medir u observar algo bajo
ciertas condiciones, conduciendo a un resultado que no puede predecirse de antemano.
(En contraposicion al experimento aleatorio, el experimento determinstico sera aquel
que conducira a un resultado predecible antes de realizar tal experimento).
No obstante, no todos los experimentos que estan caracterizados por la imposibilidad
de predecir su resultado son susceptibles de ser tratados por la Estadstica, ya que
se requiere ademas que los experimentos satisfagan ciertas condiciones de regularidad
estadstica (a las que nos referiremos en la introduccion del Calculo de Probabilidades).
El objetivo u
ltimo de la Estadstica es obtener conclusiones acerca del comportamiento del experimento aleatorio, sobre la base de lo datos que proporciona la realizacion reiterada del mismo.
Se define tambien la Estadstica como el estudio de la recopilaci
on, organizaci
on,
an
alisis e interpretaci
on de los datos provenientes de las realizaciones experimentales
consideradas.
Teniendo en cuenta la finalidad de la Estadstica, las etapas de la metodologa
estadstica pueden esquematizarse como sigue:
1. Planteamiento del problema: Especificacion del tipo de conclusiones que quieren
extraerse sobre el experimento aleatorio que se estudia.
2. Planificaci
on o dise
no del experimento aleatorio: Establecimiento de la forma de
llevar a cabo el experimento aleatorio en funcion de las conclusiones que quieran
extraerse y buscando que estas sean lo mas fiables posible.
3. Selecci
on de la muestra: Eleccion del procedimiento por el que va a obtenerse la
sucesion de realizaciones experimentales que van a servir de base para la extraccion
de conclusiones.
4. Realizaci
on del experimento aleatorio: Observacion de los resultados de la sucesion
de realizaciones experimentales.
Tras estar cuatro etapas previas, imprescindibles en la practica aunque obviadas en
muchos de los estudios teoricos, se obtienen los datos muestrales, que constituyen
la informacion sobre la que basaremos las conclusiones que se extraigan acerca del
experimento.
Una vez que se dispone de los datos muestrales, las etapas siguientes son las que
configuran la segunda definicion de Estadstica a la que nos hemos referido:
5. Recopilaci
on de los datos: Recogida y anotacion de los datos provenientes de la
observacion de las realizaciones experimentales.
6. Organizaci
on de los datos: Presentacion adecuada de de los datos para su analisis
e interpretacion posteriores.
7. An
alisis de los datos: Extraccion de la informacion relevante contenida en los
datos, a traves de medidas que resumen dicha informacion (y motivadas por el
tipo de conclusiones a las que quiera llegarse).
8. Interpretaci
on de los resultados del analisis de los datos: Extraccion de conclusiones sobre el comportamiento general del experimento aleatorio a partir del
comportamiento parcial reflejado en los datos disponibles.
La formalizacion de estas cuatro u
ltimas etapas de la metodologa incluye conceptos,
resultados y procedimientos que conforman el estudio de la Estadstica. Las tres partes
fundamentales de este estudio son:
Estadstica Descriptiva
Se ocupa del estudio de conceptos, resultados y tecnicas para la recopilacion, organizacion o presentacion y analisis de los datos. Su objetivo es describir la informacion
contenida en los datos, sin pretender extrapolar de esa descripcion parcial una descripcion del comportamiento global del experimento.
Estadstica Inferencial
Se ocupa del estudio de conceptos, resultados y tecnicas para la interpretacion de
los datos. En resumen, su objetivo es aprovechar la informacion contenida en los datos
para extraer conclusiones sobre el comportamiento global del experimento (es decir,
adopta un razonamiento inductivo).
Como esta extraccion de conclusiones se lleva a cabo en condiciones de desconocimiento sobre el comportamiento global del experimento, las conclusiones son susceptibles de error. En este punto, la Estadstica aporta la posibilidad de cuantificar el
error (o, alternativamente, la incertidumbre, la informacion, la confianza, etc.) asociado
a una conclusion.
C
alculo de Probabilidades
Se ocupa del estudio de conceptos y resultados que van a ser las herramientas
matematicas imprescindibles para formalizar adecuadamente los conceptos, resultados
y tecnicas inferenciales. El Calculo de Probabilidades esta guiado por un razonamiento
deductivo, de manera que a partir de la suposicion de que el experimento tiene cierto
comportamiento global puede deducirse si ciertos comportamientos parciales son mas
o menos verosmiles (crebles).
ESTAD
ISTICA DESCRIPTIVA
En lo que sigue supondremos que el experimento aleatorio considerado consiste en
observar o medir una o varias caractersticas sobre los elementos de un conjunto bien
definido.
M
U
E
S
T
R
A
P
O
B
L
A
C
I
r a sgos de la
m u e st r a
r a sgos de la
pobla cin
EXTRACCI N D E
CON CLUSI ON ES
ESTAD
ISTICA DESCRIPTIVA PARA
VARIABLES ESTAD
ISTICAS UNIDIMENSIONALES
Tipos de variables estadsticas unidimensionales
Para las variables estadsticas suelen considerarse dos clasificaciones: seg
un la naturaleza de los valores de la variable, o seg
un su posible rango.
En relacion con la clasificaci
on de acuerdo con la naturaleza de los valores de la
variable, la version mas general de esta clasificacion distingue dos tipos de variables:
variables cuantitativas: cuyos valores pueden expresarse en una escala numerica;
variables cualitativas: cuyos valores no pueden expresarse en una escala
numerica.
Recopilaci
on de datos muestrales unidimensionales
La primera etapa de la metodologa estadstica, es la de la recogida y anotacion de los
datos correspondientes a la observacion de la variable considerada sobre los individuos
de la muestra seleccionada.
Esta recopilacion de datos se lleva a cabo anotando el valor de la variable en cada
uno de los individuos de la muestra.
Organizaci
on de datos muestrales unidimensionales
Una vez que los datos muestrales se han recopilado, se procede a la organizacion
de los mismos para sus posterior analisis. Para ello se consideran las distribuciones de
frecuencias, que pueden basarse en diferentes nociones de frecuencia. En funcion del
analisis que quiera llevarse a cabo, las distintas nociones son mas o menos u
tiles.
Supongamos que se considera una variable estadstica X que, observada sobre una
muestra de tama
no n, toma k valores (modalidades, versiones, o valoraciones numericas)
distintos, x1 , x2 , . . . , xk :
Distribuciones de frecuencias
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia absoluta del valor xi es el
n
umero de individuos de la muestra para los que X toma el valor xi . Notacion:
ni (tambien se emplea n(xi )).
Claramente, las frecuencias absolutas cumplen que:
ni N,
0 ni n,
n1 + n2 + . . . , nk = n.
0 fi 1,
f1 + f2 + . . . , fk = 1.
En muchos estudios en diversos campos (y especialmente en algunas representaciones y programas de ordenador), en lugar de considerar proporciones se opta
por los porcentajes. En este sentido, cualquiera que sea i {1, 2, . . . , k}, el
porcentaje asociado al valor xi es el n
umero de individuos por cada cien en la
muestra para los que X toma el valor xi . Los porcentajes se obtienen de las
frecuencias relativas multiplicando estas por 100.
Los dos conceptos precedentes tienen sentido tanto para variables cuantitativas como
para variables cualitativas, y es la forma mas natural e inmediata de organizar los datos
muestrales. Es evidente que, conocido el tama
no muestral n, es indistinto conocer las
frecuencias relativas o las absolutas, puesto que estan conectadas por las relaciones:
ni
fi = ,
ni = n fi , i = 1, 2, . . . , k.
n
Los dos conceptos siguientes solo son aplicables para variables cuantitativas (aunque,
desde una perspectiva formal tambien podran establecerse para variables cualitativas
ordinales). La justificacion para introducir estas nuevas nociones es que sirven de base
para la formalizacion y determinacion de ciertas medidas del Analisis de Datos (mas
concretamente, los cuantiles).
Supongamos, sin perdida de generalidad, que los k valores distintos, x1 , x2 , . . . , xk
de X en la muestra estan ordenados en sentido creciente, es decir, x1 < x2 < . . . < xk :
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia acumulada absoluta del
valor xi es el n
umero de individuos de la muestra para los que X toma valor
inferior o igual a xi . Notacion: Ni (tambien se emplea N (xi )).
Las frecuencias acumuladas absolutas satisfacen que:
Ni N,
0 Ni1 Ni n,
Nk = n.
0 Fi1 Fi 1,
Fk = 1.
n1 + . . . + ni
Ni
=
, i = 1, 2, . . . , k,
n
n
n1 = N1 = n F1 = n f1 , ni = Ni Ni1 = n Fi n Fi1 = n fi , i = 2, . . . , k,
F i = f1 + . . . + fi =
f1 = F 1 =
N1
n1
Ni Ni1
ni
= , fi = Fi Fi1 =
= , i = 2, . . . , k.
n
n
n
n
Se denomina distribuci
on de frecuencias de una variable estadstica X
en una muestra a la sucesion de los distintos valores de la variable estadstica en la
muestra junto con sus correspondientes frecuencias en esa muestra.
Para una variable y una muestra fijadas pueden determinarse al menos dos distribuciones de frecuencias (las absolutas y las relativas) y, si se trata de una variable
cuantitativa, se puede hablar de cuatro distribuciones de frecuencias (absolutas, relativas, acumuladas absolutas y acumuladas relativas).
En forma analoga, tiene sentido hablar tambien de la distribuci
on de porcentajes
de una variable en una muestra.
x1
x2
ni
n1
n2
...
...
xi
fi
x1
f1
x2
..
.
f2
..
.
xk
fk
xk
nk
Las tablas pueden adaptarse y completarse para representar las distintas distribuciones de frecuencias de una variable en una muestra, o para representar varias de estas
distribuciones simultaneamente como, por ejemplo:
xi
x1
x2
ni
n1
n2
...
nk
fi
f1
f2
...
fk
Fi
F1
F2
...
Fk
...
xk
ficas ma
s usuales de distribuciones
Representaciones gra
Las representaciones gr
aficas dependen del tipo de variable que se este estudiando.
Las representaciones graficas mas utilizadas con el fin de dar una primera impresion
visual del comportamiento de una variable en una muestra son: el diagrama de barras,
el diagrama de sectores y el histograma.
Para el diagrama de barras se consideran dos ejes coordenados, representandose
sobre el eje de abscisas los distintos valores de la variable estadstica en la muestra
y en el de ordenadas las frecuencias (habitualmente relativas) correspondientes.
Sobre cada punto asociado a un valor de la variable en la muestra se levanta una
barra con altura igual a la frecuencia de tal valor. En ocasiones se prescinde del
eje de ordenadas, y en su lugar se incluyen los valores de las frecuencias (a menudo
expresados en terminos de porcentajes) sobre las barras.
Las escalas de los dos ejes no suelen coincidir (maxime teniendo en cuenta que el
rango de las frecuencias relativas es el intervalo [0, 1] y el de valores de la variable
es generalmente mas amplio) y el eje de ordenadas no necesariamente tiene que
pasar por el origen de coordenadas.
En el caso en que la variable considerada sea cualitativa, el diagrama de barras
tambien puede aplicarse. En esta situacion los valores de la variable suelen representarse en el eje de abscisas por puntos o intervalos manteniendose una distancia
constante entre cada dos valores consecutivos.
Si, por ejemplo, la distribucion de frecuencias absolutas viene dada por:
xi
ni
fi
0.10
0.15
0.25
0.35
0.1
0.05
1,0
0,8
0,6
0,4
0,2
0,0
-2
-1
43
15
0.47
0.16
0.07
10
[2, 0]
(0, 3]
ni
(3, 4] (4, 8]
7
[2, 0]
(0, 3]
(3, 4]
(4, 8]
fi
0.15
0.3
0.35
0.2
0.075
0.1
0.35
0.05
fi /ai
0,8
0,6
0,4
0,2
0,0
-2
-1
n de la funcio
n de distribucio
n emprica esta asociada
La representacio
al manejo de las distribuciones acumuladas y se basa en la definicion de esta funcion,
que se establece como sigue:
Sea X una variable estadstica cuantitativa, que en una muestra toma k valores
distintos x1 , x2 , . . . , xk , que supondremos denotados en sentido creciente (es decir, x1 <
x2 < . . . < xk ), con frecuencias relativas respectivas f1 , f2 , . . . , fk .
11
Se define la funci
on de distribuci
on emprica de X en la muestra como la
aplicacion F : R R tal que para todo x R:
se concluye que:
Si x (, x1 ):
F (x) = 0,
ya que en este caso no hay individuos en la muestra para los que X x.
Si x [xi1 , xi ) (con i {2, . . . , k}):
F (x) = Fi1 = f1 + . . . + fi1 ,
ya que los individuos en la muestra para los que X x son aquellos para los que
X toma uno de los valores x1 o . . . o xi1 (que son los u
nicos valores de la variable
en la muestra inferiores o iguales a cualquier x [xi1 , xi )).
Si x [xk , +):
F (x) = 1,
ya que en este caso todos los individuos en la muestra satisfacen que X x.
En resumen, la expresion general de la funcion de
guiente:
F 1 = f1
F 2 = f1 + f2
F (x) =
..
Fk1 = f1 + . . . + fk1
12
1
..
.
Fi1
..
.
F2
F1
x1
20
x2
40
60
80
x3 . . . 140
xi1
100
120
xi . . . 180
xk
160
200
20
40
60
80
100
120
140
160
180
200
0.14
F (x) =
0.38
0.71
si
si
si
si
si
x < 1
1 x < 1
1x<5
5x<8
x 8.
13
Fi
0.14
0.38
0.71
fi
0.14
0.24
0.33
0.29
lim
xx0 , x>x0
yu
nicamente es discontinua por la izquierda (y, por lo tanto, discontinua) en los
puntos correspondientes a los distintos valores que la variable toma en la muestra.
Prop. 5. F es una funcion escalonada (es decir, es constante entre cada dos puntos de
discontinuidad consecutivos).
Las cinco propiedades anteriores caracterizan a la funcion de distribucion emprica
(y, en consecuencia, a la distribucion de frecuencias asociada). En otras palabras,
para cualquier funcion que satisfaga Prop. 1-Prop. 5, puede construirse una variable
estadstica cuya funcion de distribucion emprica coincida con la dada.
14
Observaci
on: Como acabamos de indicar, F (x0 +) = F (x0 ) = proporcion de individ
uos de la muestra para los que X x0 . Por otro lado, a partir de la representacion
grafica en la Figura 7, puede deducirse que:
F (x0 ) = lim F (x) =
xx0
lim
xx0 , x<x0
F (x)
An
alisis de datos unidimensionales
El Analisis de Datos tiene por finalidad extraer de estos la informacion relevante,
teniendo en cuenta que esta informacion va a servir de base habitualmente para la
interpretacion posterior de los datos. Cuando se manejan datos unidimensionales, la
informacion mas relevante suele ser la relativa a ciertas medidas representativas de la
distribucion de frecuencias. Entre estas medidas, las mas u
tiles suelen ser:
Las medidas de tendencia central.
Las medidas de posicion.
Las medidas de dispersion.
las medidas de forma.
15
d1 + d2 + . . . + dn
.
n
Como diferentes datos muestrales pueden tomar el mismo valor, la definicion precedente puede expresarse alternativamente en terminos de los valores distintos de la variable en la muestra. De esta manera, si X es una variable cuantitativa que en una
muestra de n individuos toma k valores distintos x1 , x2 , . . . , xk , con frecuencias absolutas (o relativas) respectivas n1 , n2 , . . . , nk (o, respectivamente f1 , f2 , . . . , fk ), entonces:
k
X=
1X
x1 n1 + x2 n2 + . . . + xk nk
=
xi ni ,
n
n i=1
X = x1 f 1 + x2 f 2 + . . . + xk f k =
k
X
xi f i .
i=1
entonces:
X=
xi
ni
2 2 1 3 + 0 5 + 1 7 + 4 2 + 5 1
13
=
= 0.65.
20
20
k
X
g(xi ) fi .
i=1
(Esta propiedad indica que para hallar la media una variable Y que es funcion
de otra X, no es necesario hallar la distribucion de frecuencias de Y para determinar su media, sino que esta puede expresarse en terminos de la distribucion de
frecuencias de la variable X. La utilidad principal de esta propiedad es la de que
sirve de base para la demostracion de otras propiedades).
16
Prop. 2. Si X es una variable estadstica que en una muestra tiene distribucion de frecuencias degenerada en el valor c R (es decir, que en todos los individuos de la
muestra el valor de X es igual a c), entonces X = c. Esta propiedad se expresa
usualmente como sigue:
c = c.
Prop. 3. Cualquiera que sea c R y la variable estadstica X, se cumple que:
c X = c X.
Prop. 4. Cualquiera que sea c R y la variable estadstica X, se cumple que:
X + c = X + c.
Prop. 5. Si X es una variable estadstica y g : R R, h : R R son dos aplicaciones cualesquiera, entonces la media de la variable estadstica Y = g(X) + h(X) satisface
que:
g(X) + h(X) = g(X) + h(X).
Finalmente, las dos u
ltimas propiedades formalizan el hecho de que la media de
una distribucion de frecuencias puede interpretarse como una medida de su tendencia
central.
Prop. 6. Sea X es una variable estadstica que en una muestra toma k valores distintos
x1 , x2 , . . . , xk , con frecuencias relativas respectivas f1 , f2 , . . . , fk . Si se define la
funcion
G : R R t.q. c R : G(c) = (X
c)2
k
X
(xi c)2 fi .
i=1
17
18
0.1
0.25
0.5
0.85
0.95
Como nos encontramos en una situacion del tipo del CASO 2, ya que F3 = 0.5, la
aplicacion de la regla anterior indica que, como ya vimos al aplicar la definicion primera:
Me(X) = cualquier valor en el intervalo [x3 , x4 ] = cualquier valor en el intervalo [0, 1].
19
La moda de una variable estadstica en una muestra (o, mas propiamente, la moda
de su distribucion de frecuencias) se define como el valor o los valores de la variable
en la muestra, Mo(X), que aparecen con mayor frecuencia entre los datos muestrales.
Esta medida es calculable para cualquier tipo de variable estadstica y su determinacion
practica es inmediata.
Si, por ejemplo, la distribucion de frecuencias absolutas de X en una muestra de 20
individuos viene dada por:
xi
ni
entonces:
Mo(X) = 1.
Una distribucion de frecuencias se denomina unimodal, si admite moda u
nica, bimodal si admite dos y, en general, multimodal si admite varias modas.
La moda de una distribucion de frecuencias satisface las propiedades siguientes:
Prop. 1. Si X es una variable estadstica que en una muestra tiene distribucion de frecuencias degenerada en el valor c R, entonces Mo(X) = c. Esta propiedad se
expresa usualmente como Mo(c) = c.
Prop. 2. Cualquiera que sea c R y la variable estadstica X, se cumple que:
Mo(c X) = c Mo(X).
Prop. 3. Cualquiera que sea c R y la variable estadstica X, se cumple que:
Mo(X + c) = Mo(X) + c.
20
n
Medidas de posicio
Son medidas que generalizan el concepto de mediana, en el sentido de que dejan
a ambos lados al menos ciertas proporciones (no necesariamente la mitad, como en el
caso de la mediana) prefijadas de datos muestrales.
Mas concretamente, si X es una variable estadstica cuantitativa que en una muestra
tiene la funcion de distribucion emprica F , fijada una proporcion 0, 1), se define el
cuantil de orden de la distribucion de frecuencias de X como el valor o los valores
C (X) que cumplen que:
ni
Fi
0.1
0.25
0.5
0.85
0.95
21
Como nos encontramos en una situacion del tipo del CASO 1, ya que F3 = 0.5 <
75/100 < 0.85 = F4 , la aplicacion de la regla anterior indica que, como ya vimos al
aplicar la definicion primera:
C0.75 (X) = x4 = 1.
Como casos particulares de cuantiles, se consideran los cuartiles, los deciles y los
percentiles (estos u
ltimos los mas empleados en la practica).
Se define el cuartil de orden r {1, 2, 3} de la distribucion de frecuencias de X
e una muestra como el valor Qr (X) = Cr/4 (X).
Se define el decil de orden r {1, 2, . . . , 9} de la distribucion de frecuencias de X
e una muestra como el valor Dr (X) = Cr/10 (X).
Se define el percentil de orden r {1, 2, . . . , 99} de la distribucion de frecuencias
de X e una muestra como el valor Pr (X) = Cr/100 (X).
A menudo, no solo interesa determinar los percentiles de un orden perfijado, sino
que fijado un valor puede interesar saber para que orden es un posible percentil. Se
define el rango percentil de un valor x0 en una distribucion de frecuencias muestral
de X como el r {1, 2, . . . , 99} tal que Pr (X) = x0 .
n
Medidas de dispersio
Se trata de medidas que cuantifican el grado de variabilidad, variacion o dispersion
de los datos muestrales de variables cuantitativas. Dentro de las medidas de dispersion
podemos distinguir dos tipos:
el de las medidas que hacen referencia a una medida de tendencia central (es
decir, miden el grado de dispersion de los datos muestrales con respecto a alguna
medida de tendencia centra -usualmente media o mediana-);
el de las medidas que no hacen referencia a medidas de tendencia central, sino que
cuantifican la dispersion de todos los datos (o algunos especialmente relevantes)
con respecto a los demas (o ciertos otros).
La varianza de una variable estadstica en una muestra (o, mas propiamente, la
varianza de su distribucion de frecuencias) se define como la media aritmetica de los
cuadrados de las distancias eucldeas entre cada uno de los datos muestrales y la media.
Es decir, si X es una variable (necesariamente cuantitativa) que en una muestra de n
individuos ha dado lugar a los n datos muestrales d1 , d2 , . . . , dn , la varianza de X es el
2
n
umero real que denotaremos indistintamente por Var(X) y por SX
. dado por:
(d1 X)2 + (d2 X)2 + . . . + (dn X)2
Var(X) =
,
n
es decir:
Var(X) = (X X)2 =
k
X
(xi X)2 fi .
i=1
22
ni
k
X
i=1
x2i fi
k
X
i=1
!2
xfi
23