Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Presentación 7
Capítulo 6. Ajuste 41
6.1. Ajuste: concepto y significado 41
6.2. El método de los mínimos cuadrados 41
6.3. Algunas funciones ajustadas por mínimos cuadrados 42
Capítulo 7. Regresión y correlación 45
7.1. Correlación: concepto y significado 45
7.2. Varianza residual y coeficiente de determinación 46
7.3. Regresión. Línea de regresión 47
7.4. Regresión lineal: coeficiente de regresión 48
7.5. Introducción a la predicción (I) 48
Capítulo 8. Números índices 51
8.1. Concepto de número índice 51
8.2. Propiedades exigibles a los indicadores 52
8.3. Índices sintéticos: ponderados y no ponderados 52
8.4. Cambio de base 55
8.5. Participación y repercusión 55
8.6. ANEXO: Índices espaciales 56
Capítulo 9. Series Temporales 59
9.1. Planteamiento general 59
9.2. Análisis clásico 60
9.3. Métodos para el cálculo de la tendencia 60
9.4. Índices de variación estacional. Desestacionalización 62
9.5. Variaciones cíclicas 62
9.6. Introducción a la predicción (II) 63
Presentación
Nociones Básicas de Estadística es un manual escrito en el invierno
de 1985-86 y publicado en Marzo de 1986. Este libro nació con el ob-
jetivo de elaborar un material que presentase las principales técnicas
estadísticas de una forma introductoria pero rigurosa; por eso práctica-
mente no incluye demostraciones, pero presenta con rigor los conceptos
y resultados relativos a los principales métodos estadísticos.
En el momento de su publicación inicial, este libro pretendía servir
de base para distintos cursos de Estadística de enseñanza universitaria
no reglada impartidos a personal de empresas, bancos, instituciones,
centros sanitarios, etc., interesados en el conocimiento de las técnicas
estadísticas. La situación ha cambiado y este tipo de cursos apenas
existen en la actualidad, o en todo caso son mucho más específicos,
vinculados generalmente a alguna aplicación informática.
Al analizar los motivos de este cambio en las necesidades de for-
mación, supongo que se debe en gran medida al avance de las TIC y
las aplicaciones informáticas de Estadística. En la actualidad, cualquier
cuaderno de cálculo dispone de un amplio conjunto de herramientas de
análisis estadístico, accesible desde cualquier ordenador y con software
libre o gratuito, que permite elaborar un análisis estadístico avanza-
do. Sin embargo, no creo que estos avances garanticen la interpreta-
ción correcta de los resultados, ya que ésta se encuentra vinculada a
la comprensión de los conceptos y las técnicas. En definitiva, tengo la
impresión de que disponemos de volúmenes de información que antes
resultaban impensables y de tecnologías que facilitan enormemente su
tratamiento, pero en ocasiones nos estamos olvidando del razonamiento
estadístico.
Este libro nació con unos objetivos claros y ahora, con la pers-
pectiva que dan 25 años, me encuentro muy satisfecho del enfoque, la
estructura, el rigor, etc. Se concibió como un material de trabajo que
servía de hilo conductor al profesor o de referencia al alumno, pero que
lógicamente debía ser complementado con otros materiales (ya que no
contiene ejemplos, demostraciones, etc.) y que podía ser utilizado de
forma muy flexible (en cursos de 40 horas, distintos móculos de 20 h. ,
....).
Contemplado desde el año 2010, en un contexto de recursos muy
superiores y niveles de exigencia a menudo más reducidos, también su-
pone para mí una satisfacción haber sido capaz de elaborar este manual
con una vieja máquina de escribir Olivetti y de recoger los principales
contenidos de estadística descriptiva e inferencial con un rigor que hoy
a veces sacrificamos.
8 Índice general
Estadística Descriptiva
Capítulo 1
Introducción
x i n i f i Ni F i
x 1 n 1 f 1 N1 F 1
x 2 n 2 f 2 N2 F 2
.. . . . . . . .
. . . . ..
x k n k f k Nk F k
⇒ Un cuadro formado por la columna de valores de la variable
y otra columna cualquiera de frecuencias, se le denomina tabla
estadística.
⇒ Al proceso de elaboración de tablas estadísticas se denomina
tabulación
Los tamaños ’pe-
queño’ o ’grande’ 1.4. Distribuciones agrupadas y no agrupadas
lo interpretamos A una tabla estadística del tipo anterior, generalmente se le deno-
en el sentido de mina distribución de frecuencias o simplemente distribución, que de
manejabilidad de forma genérica se representa por (xi , ni ) .
los datos. Cuando el número de valores que toma la variable es ’pequeño’, las
tablas anteriores son útiles para presentar datos. A estas distribuciones
se les denomina no agrupadas.
Por el contrario si el número de valores distintos que toma la varia-
ble es ’grande’, tiene escasa funcionalidad una tabla de este tipo.
Sería más razonable agrupar estos datos con sus correspondientes
frecuencias en intervalos, de forma que el número de éstos sea más
manejable.
Estos intervalos se denotan de forma genérica por (Li−1 , Li ), donde
Li−1 y Li son los límites del intervalo y se denominan límite o extremo
inferior y superior , respectivamente.
Llamamos amplitud del intervalo, que denotamos por ai , a la longi-
tud de este intervalo o diferencia entre el extremo superior y el extremo
inferior del mismo.
Denotar por xi
la marca de clase ai = Li − Li−1
no significa que la Denominamos marca de clase al punto medio de cada intervalo o
variable tome ese clase. Generalmente denotaremos por xi la marca de clase del i-ésimo
valor. intervalo:
Li−1 + Li
xi =
2
Cuando una distribución se expresa (o viene ya dada) en intervalos,
se denomina agrupada.
Sobre estas distribuciones existen varios puntos de discusión a cerca
de los cuales no hay unos criterios unánimes, dependerán del problema
concreto que estemos estudiando:
1.5. REPRESENTACIONES GRáFICAS 15
Li−1 − Li x i n i f i Ni Fi
L0 − L 1 x 1 n 1 f 1 N1 F1
L1 − L 2 x 2 n 2 f 2 N2 F2
.. ... ... ... ... ..
. .
Lk−1 − Lk x k n k f k Nk Fk
La distribución de las repeticiones sobre cada intervalo admite una
doble interpretación que condicionará los métodos empleados para ob-
tener los promedios de estas distribuciones:
♦ ’Como se darán valores anteriores y posteriores a la marca de
clase, podríamos considerar que este es el único valor que to-
ma la variable en ese intervalo, repitiéndose tantas veces como
indica la frecuencia del mismo’
♦ ’Como no sabemos qué valores asume la variable sobre un in-
tervalo, podemos suponer que su frecuencia se reparte unifor-
memente sobre todos los valores del mismo’.
Diagrama rectangular
Esta representación asigna a cada modalidad un rectángulo de mo-
do que su área sea igual o proporcional a la frecuencia de la misma.
Es una represen-
tación útil cuando
se compara un
atributo en varias
Pictogramas
poblaciones.
Consiste en un figura característica del atributo, donde su tamaño
es tal que su área o volumen sea igual o proporcional a la frecuencia
del atributo en la población a la que representa.
1.5. REPRESENTACIONES GRáFICAS 17
Caracteres cuantitativos
⇒ Distribuciones no agrupadas
Sea X una variable estadística que toma valores x1 , · · · , xk , con fre-
cuencias n1 , · · · , nk .
Diagrama de barras
Consiste en representar sobre un plano de coordenadas, en el eje
de abscisas los distintos valores de la variable y en el eje de ordenadas
la frecuencia (absoluta o relativa) con que toma esos valores; y para
hacer más visible la representación se traza el segmento que une el
punto (xi , ni ) (o (xi , fi ) ) , con su abscisa correspondiente (xi , 0). De
esta forma aparecen una serie de barras cuya suma es N (o uno según
sea el caso).
Diagrama escalonado
El gráfico que se obtiene cuando se representa sobre un plano la
función que a cada número real le asigna su frecuencia acumulada (ab-
soluta o relativa). Es cero hasta llegar al primer valor de la variable
y N (o uno) a partir del último valor, el número de saltos es igual al
18 1. INTRODUCCIóN
⇒ Distribuciones agrupadas
Polígono de frecuencias
Es la representación usual en distribuciones agrupadas correspon-
diente a frecuencias acumuladas; se basa en el supuesto de que las
repeticiones de cada intervalo se reparten de forma uniforme sobre su
recorrido, y de esta forma se considera que la frecuencia acumulada del
extremo inferior de un intervalo coincide con la del extremo superior
del intervalo precedente y la frecuencia acumulada de un intervalo se
alcanza sólo en el límite superior del mismo. Esta representación con-
siste en construir la poligonal resultante de unir mediante segmentos la
frecuencia acumulada del extremo inferior con la del superior de cada
intervalo, teniendo en cuenta además que la frecuencia acumulada de
todo valor anterior a L0 es nula y para valores superiores a Lk alcanza
al valor N (o uno si se refiere a frecuencias relativas).
Hemos de hacer notar que podría utilizarse cualquier gráfico que nos
permitiera obtener más información sobre el problema tratado, con tal
de que sea fiel a esa realidad, que sea una plasmación de la misma.
Capítulo 2
Medidas de Posición
k
�
(2.1.1) x̄ = xi f i
i=1
Propiedades:
1. Si a cada valor de la variable se le suma una constante c, la
media también aparece aumentada en esa constante:
x + c = x̄ + c
2. Si a cada valor de la variable se le multiplica por una constante
c, la media varía en la misma proporción: cx = cx̄.
3. Si tenemos h subconjuntos disjuntos de �
�� un conjunto de valores
h
con tamaños N1 , · · · , Nh j=1 Nj = N , y medias x̄1 , · · · , x̄h ,
la media del conjunto total se relaciona con la media de los
subconjuntos mediante la expresión:
N1 x̄1 + · · · + Nh x̄h
(2.1.2) x̄ =
N
21
22 2. MEDIDAS DE POSICIóN
N
− Ni−1
(2.2.1) M e = Li−1 + 2
ai
En una distribu-
ni
ción puede haber
más de una mo- 2.3. Moda
da, en cuyo caso Definición. Llamamos moda o valor modal de una distribución, que
se denominan denotamos por M o , al valor de la variable que más veces se repite.
multimodales
ni+1
ai+1
(2.3.1) M o = Li−1 + ni−1 ni+1 ai
ai−1
+ ai+1
�
k � k
� ��
(2.4.1) G = xf11 · · · xfkk = xi = �
fi N
xni i No se puede cal-
i=1 i=1 cular H cuando
Definición. Llamamos media armónica, que denotamos por H, al va- algún valor es
lor de la expresión: nulo.
N
(2.4.2) H= n1 nk
x1
+ ··· + xk
rN
− Ni−1
(2.6.1) Qr = Li−1 + 4
ai
ni
rN
− Ni−1
(2.6.2) Dr = Li−1 + 10
ai
ni
rN
− Ni−1
(2.6.3) Cr = Li−1 + 100
ai
ni
siendo en cada caso, el i-ésimo intervalo donde se encuadra la posición
del correspondiente cuantil de orden r.
Capítulo 3
Medidas de dispersión
(3.1.2) RI = Q 3 − Q 1
Definición. Llamamos varianza, que denotamos por S 2 , a la media de
las desviaciones cuadráticas de los valores de la variable respecto a la
media aritmética.
27
28 3. MEDIDAS DE DISPERSIóN
k
�
(3.1.3) 2
S = (xi − x̄)2 fi
i=1
SX
(3.2.1) V =
x̄
Otros coeficientes para medir la dispersión en términos relativos
son: En una distri-
bución es más
Dx̄ DM e DM o representativo
(3.2.2) Vx̄ = ; VM e = ; VM o = ;··· aquel promedio
x̄ Me Mo
Como vemos se trata siempre de un cociente cuyo denominador es cuyo coeficiente
el promedio estudiado, y el numerador es la desviación absoluta media de variación sea
respecto a ese promedio. menor
Estos coeficientes se emplean para comparar la representatividad Comparando va-
de varios promedios en una distribución, o para comparar la represen- rias distribucio-
tatividad de un promedio en varias distribuciones. nes, un promedio
es más represen-
3.3. Variable tipificada
tativo en la que
Dados dos variables, por lo general éstas no son comparables. Cuan- proporcione un
do queremos comparar algunos valores de una y otra variable, tendre- coeficiente menor
mos que recurrir a una técnica de tipificación o estandarización de las
variables, que consiste en situar las variables en la misma escala para
poder comparar sus valores.
Definición. Llamamos variable tipificada a aquélla que tiene media
cero y varianza uno.
Dada una variable estadística X, podemos obtener una tipificación
de la misma mediante la transformación:
X − x̄
(3.3.1) Y =
SX
3.4. ANEXO: Momentos de una distribución
Cada momento hace referencia a un orden y, según sea éste, nos
indica alguna característica de la distribución.
Los momentos (potenciales) se clasifican en centrados y no centra-
dos.
30 3. MEDIDAS DE DISPERSIóN
k
�
(3.4.1) ar = xri fi
i=1
k
�
(3.4.2) mr = (xi − x̄)r fi
i=1
Relaciones:
� � � � � �
r r r
(3.4.3) mr = ar − ar−1 a1 + · · · + (−1) r
a0 ar1
0 1 r
Capítulo 4
31
32 4. MEDIDAS DE FORMA Y CONCENTRACIóN
La curva de con-
centración, es
una representa-
ción muy usual
para analizar la
concentración de
una distribución,
y de forma es-
pecial cuando se
compara la de-
sigualdad de esta
distribución en
varios períodos de
tiempo.
La curva AC se denomina curva de concentración o curva de Lo-
renz, y la diagonal del primer cuadrante línea de equidistribución o de
igualdad perfecta. A medida que la concentración disminuye, la curva
tiende a acercarse a la línea de equidistribución; por el contrario si la
concentración aumenta, la curva tiende al triángulo ABC.
Capítulo 5
xi ni.
x1 n1.
x2 n2.
.. ..
. .
xk nk.
que se denomina distribución marginal de la variable X.
Se define la frecuencia marginal relativa como:
� k
�
ni. �
fi. = ; fi. = 1
N i=1
yj n.j
y1 n,1
y2 n,2
.. ..
. .
yh n.h
�� �
n.j h
Y su frecuencia relativa marginal será: f.j = N
; j=1 f.j = 1
xi /yj nij
x1 n1j
x2 n2j
.. ..
. .
xk nkj
Y la frecuencia relativa de un valor xi condicionado a yj , que deno-
tamos por fi/j , será:
� k �
nij fij �
fi/j = = ; fi/j = 1
n.j f.j i=1
De forma análoga, se define la distribución de Y condicionada a un
valor xi , como:
yj /xi nij
y1 ni1
y2 ni2
.. ..
. .
yh nih
Siendo la frecuencia
�� relativa� de un valor yj condicionado a xi :
nij fij h
gj/i = ni. = fi. ; j=1 gj/i = 1 .
Usamos la notación g para representar la frecuencia relativa, para
no confundirla con la anterior en otro par de índices (j, i); pero en ge-
neral no haremos tal distinción y denotaremos por f frecuencia relativa
y distinguiendo fi/j o fj/i como las frecuencias condicionadas de X o
Media margi-
de Y
nal: x̄, ȳ, media
Trasladando las características de las variables unidimensionales a
condicionada:
las distribuciones marginales y condicionadas, se obtiene: media margi-
x̄/yj , ȳ/xi
nal y media condicionada, varianza marginal y varianza condicionada,
...; entre las cuales pueden establecerse las siguientes relaciones:
⇒ La media de las medias condicionadas coinciden con la media
marginal.
⇒ La varianza marginal es igual a la varianza de las medias con-
dicionadas más la media de sus varianzas condicionadas.
k �
� h
(5.4.1) SXY = (xi − x̄) (yj − ȳ) fij
i=1 j=1
k �
� h
La covarianza nos
(5.4.2) SXY = xi yj fij − x̄ȳ indica si la rela-
i=1 j=1 ción es positiva
Este valor puede ser positivo, negativo o nulo, indicando una corre- o negativa, pero
lación positiva (directa), negativa (inversa) o ausencia total de correla- no el grado de la
ción lineal, respectivamente. relación.
40 5. DOS CARACTERES Y SUS POSIBLES RELACIONES
Ajuste
Y = f (β1 , · · · , βn , X)
41
42 6. AJUSTE
k �
� h k �
� h
mı́n e2ij nij = mı́n (yj − f (β1 , · · · , βn , xi ))2 nij
β1 ,··· ,βn β1 ,··· ,βn
i=1 j=1 i=1 j=1
⇒ Ajuste potencial:
6.3. ALGUNAS FUNCIONES AJUSTADAS POR MíNIMOS CUADRADOS 43
SXY
(6.3.3) X − x̄ = (Y − ȳ)
SY2
Y = β1 X β2 , tomando logaritmos, se tiene:
Y � = b1 + β2 X �
con lo cual podemos proceder según un ajuste lineal sobre las nuevas
variables.
⇒ Ajuste exponencial:
Y = β1 β2X . tomando logaritmos se tiene: log Y = log β1 + X log β2
Haciendo la transformación: Y � = log Y , b1 = log β1 , b2 = log β2 , queda:
Y � = b1 + b2 X
que se resuelve como un ajuste lineal, y deshaciendo el cambio, se ob-
tiene los parámetros que determinan la función inicial.
⇒ Ajuste hiperbólico:
Y X = β1 . Se aplica el cambio X � = X1 .
⇒ Ajuste parabólico:
Y = β1 + β2 X + β3 X 2 , entonces: eij = (Yj − β1 − β2 xi − β3 Xi2 )
Las ecuaciones normales resultantes (las que se obtienen al igualar
las derivadas parciales a cero) son:
A
(6.3.4) Y = +B
1 + β1 e−β2 t
Existen varios métodos para ajustar la curva logística. Fijadas las
asíntotas (por información previa) A y A+B, uno de estos métodos
basado en los mínimos cuadrados, consiste en transformar la ecuación
anterior en:
A
β1 e−β2 t = −1
Y −B
tomando logaritmos puede expresarse como:
� �
A
log β1 − β2 t = log −1
Y −B
� A �
que haciendo el cambio: b1 = log β1 ;b2 = −β2 ; Y � = log Y −B −1 ,
resulta:
Y � = b1 + b2 t
Y a partir de aquí, podemos determinar los parámetros con un
ajuste lineal por mínimos cuadrados.
Capítulo 7
Regresión y correlación
ŷi ni.
ŷ1 n1.
ŷ2 n2. Se supone que los
.. .. errores por exceso
. .
ŷk nk. y por defecto se
compensan.
La media de esta variable coincide con ȳ y su varianza, que se
denomina
� �varianza explicada, está acotada por la varianza total de Y
SŶ ≤ SY .
2 2
45
46 7. REGRESIóN Y CORRELACIóN
El cociente:
Sŷ2
Sy2
nos indica la parte de variación total de Y que viene explicada por la
variación de X a través del modelo.
Este cociente toma valores entre cero y uno, siendo cero si las va-
riables son independientes y uno cuando la dependencia es funcional;
además, una mayor dependencia se refleja en un incremento de este
cociente.
De este modo, este cociente puede ser considerado como una medida
de correlación, a la que se denomina coeficiente de determinación y se
designa por R2
k
�
(ȳ/xi − f (β1 , β2 , · · · , βn , xi ))2 fi.
i=1
k �
� h
(yj − f (β1 , β2 , · · · , βn , xi ))2 fij
i=1 j=1
Números índices
Años X1 X2 · · · Xn
0 x10 x20 · · · xn0
1 x11 x21 · · · xn1
.. ... ... ..
. ··· .
T x1T x2T · · · xnT
donde xij denota el valor que la variable Xi toma en el período j.
Se podrían formar n series de índices simples que indiquen la evo-
lución de cada una de estas variables o un índice complejo que muestra
la variación conjunta de las mismas. Este índice complejo sintetiza la
información desagregada de las n variables, por lo que a tales índices
se les denomina sintéticos.
Los índices sintéticos se clasifican en ponderados y no ponderados,
según que las variables dentro de su conjunto tengan diferente o igual
peso respectivamente.
8.3. NDICES SINTéTICOS: PONDERADOS Y NO PONDERADOS 53
Años X1 X2 ··· Xn
(1) (2) (n)
0 I00 I00 ··· I00
(1) (2) (n)
1 I10 I10 ··· I10
.. ... ... ..
. ··· .
(1) (2) (n)
T IT 0 IT 0 ··· IT 0
(i)
donde It0 = xxi0it es el índice simple de la i-ésima variable correspon-
diente al año t con base el año 0.
De lo anteriormente expuesto podemos intuir que el papel de los
índices sintéticos dentro de los simples es equivalente al que juega el
promedio en relación con las distribuciones; por lo cual las fórmulas de
índices sintéticos más utilizados serán promedios de índices simples.
2. Media geométrica:
� n
� n1
� (i)
(8.3.2) Gt0 = It0
i=1
3. Media armónica:
n
(8.3.3) Ht0 = �n 1
i=1 I (i)
t0
El agregado es el
4. Media agregativa: Consiste en obtener los agregados de cada
total del período
año, y con éstos calcular un índice simple.
�n
xit
(8.3.4) At0 = �ni=1
i=1 xi0
2. Media geométrica:
� n �
� �n 1
� �wi i=1
wi
(W ) (i)
(8.3.6) Gt0 = It0
i=1
3. Media armónica:
�n
(W ) wi
(8.3.7) Ht0 = �ni=1 wi
i=1 I (i)
t0
4. Media agregativa
�n
(W ) xit wi
(8.3.8) At0 = �ni=1
i=1 xi0 wi
Como en el caso anterior, las fórmulas más empleadas son los de la
media aritmética y la media agregativa.
Las ponderaciones, en relación con el tiempo, se clasifican en: cons-
tantes, cuando no se alteran a lo largo de los años en los que el índice
tiene validez, y que generalmente se toma el peso de la magnitud en el
año base; y ponderaciones variables, que se cambian año a año, según
la importancia que en cada uno tengan las distintas magnitudes. En el
primer caso las ponderaciones se denotan por wi0 y se denominan de
base fija, y en el segundo se les llama de base móvil y se designan por
wit .
Cuando en la media aritmética se utilizan ponderaciones de base
fija, la fórmula que se obtiene es:
�n (i)
i=1 It0 wi0
(8.3.9) Lt0 = � n
i=1 wi0
que se conoce como índice de Laspeyres.
Si empleamos ponderaciones de base móvil, se obtiene:
�n (i)
i=1 It0 wit
(8.3.10) Pt0 = � n
i=1 wit
8.5. PARTICIPACIóN Y REPERCUSIóN 55
I t∗ 0
It∗ t∗∗ =
It∗∗ 0
de donde: It∗∗ t∗ = It∗1t∗∗ (Inversión)
Por último si t∗ ≤ t∗∗ ≤ t, entonces se tiene:
It∗∗ 0 = It∗ t∗∗ It∗ 0 (Circular)
y despejando se obtiene:
It∗∗ 0
It∗∗ t∗ =
I t∗ 0
Estas fórmulas nos facilitan el cambio de base, permitiéndonos obtener
la nueva serie con base t∗ .
Series Temporales
59
60 9. SERIES TEMPORALES
A veces se con-
Método de las medias escalonadas. Este método consiste en
sideran períodos
dividir la serie en períodos formados por p ’instantes’ cada uno; sobre
anuales que puede
éstos se calcula la media de los valores de la variable y su valor se asigna
incluir un número
al ’instante’ central del período.
par de instantes.
y1 + y2 + · · · + yp En este caso hay
y 1∗ = dos instantes cen-
p
trales, la media
yp+1 + yp+2 + · · · + y2p móvil se asigna
y 2∗ = a uno de ellos y
p
luego se centra la
La línea que une estos puntos yi∗ se considera la tendencia de la serie calculando
serie. la media de los
dos centrales y
Método de las medias móviles. Se elige un período de 2p + 1 asigándosela al
’instantes’; y se construye una nueva serie Y � de modo que: otro.
yt−p + · · · + yt + · · · + yt+p
yt� = ; ∀t = p + 1, · · · , T − p
2p + 1
Esta nueva serie es un alisamiento de la serie original; y se considera
que con estas medias se eliminan las otras componentes, con lo que la
resultante será la tendencia de la original.
Esta nuevo método representa una evolución sobre los anteriores,
puesto que se va calculando una media continua que suaviza la serie.
Sin embargo, este método pondera de igual forma los valores próximos
al centro que los valores más extremos del intervalo. Pueden definirse
otros métodos en esta misma línea, llamados alisados, que ponderan
más los valores próximos al actual y esa ponderación va a disminuir en
la medida en la que nos alejamos de ese período.
Cálculo de probabilidades
Capítulo 10
Introducción a la probabilidad
1. P (A) ≥ 0, ∀A ∈ A
2. P (E) = 1
3. ∀A, B ∈ A , con A ∩ B = ∅ , ⇒ P (A ∪ B) = P (A) + P (B)
1. P (Ā) = 1 − P (A)
2. P (∅) = 0
3. Si A ⊆ B ⇒ P (A) ≤ P (B)
4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
5. Si A1 , · · · , An ∈ A, y Ai ∩ Aj = ∅ ∀i �= j, ⇒ P (∪ni=1 Ai ) =
� n
i=1 P (Ai )
Variables aleatorias
ˆ b
(11.3.1) P (a < X ≤ b) = f (x)dx
a
⇒ Caso continuo
ˆ ∞
V ar(X) = (x − E(X))2 f (x)dx
−∞
Desarrollando el último miembro de la expresión 11.6.1, se tiene:
� � � �
(11.6.2) V ar(X) = E X 2 − 2XE(X) + E(X)2 = E X 2 − E(X)2
Esta expresión nos proporciona una fórmula útil para calcular la
varianza.
11.7. ANEXO: MOMENTOS DE UNA DISTRIBUCIóN 79
Distribuciones notables
Función de distribución:
Más adelante se � 0 si x < 0
[x] �n� k n−k
construye un test F (x) = p q si 0 ≤ x < n
k=0 k
que nos permiti- 1 si x ≥ n
rá contrastar la
Características: E(X) = np ; V ar(X) = npq
bondad de estos
Ajuste: Para aproximar una distribución empírica por una bino-
ajustes.
mial, se procede de la siguiente forma: calculamos la media aritmética
La tabla recoge de la distribución empírica y se identifica con la esperanza matemática
una selección de de la variable teórica. A partir de aquí se obtiene el valor de p, pues n
valores; y a pesar es conocido (tamaño poblacional). Una vez calculados los parámetros,
de las recomenda- queda especificada la distribución binomial que mejor se ajusta a la
ciones de interpo- empírica.
lar o aproximar, Utilización de tablas: Esta ley se encuentra tabulada en el cuadro
en la actualidad, 12.1, para un número de pruebas comprendido entre 1 y 8 y para ciertos
cualquier hoja de valores de p entre 0,05 y 0,5. Para obtener la probabilidad de obtener
cálculo o progra- k éxitos cuando n y p figuran en la tabla, se localiza el grupo de filas
ma informático correspondiente a ese n, se fija la fila x en ese grupo y se obtiene la
de Estadística probabilidad en la columna con cabecera p.
permiten obtener si p > 0, 5, entonces permutamos éxitos y fracasos y buscamos en
la probabilidad de la fila n − x el valor correspondiente a 1 − p.
forma exacta. Si p o q no figuran en la tabla, sería necesario interpolar. Si n es
mayor que 8, veremos en los siguientes apartados, que la distribución
binomial puede aproximarse por otras distribuciones.
Actualmente cualquier programa informático de Estadística nos
permiten calcular las probabilidades de la mayoría de los modelos pro-
babilísticos; por este motivo, el valor de las tablas ya no está tanto en
facilitar la probabilidad como en darnos una visión de cómo evolucio-
nan las probabilidades cuando alteramos el valor de los parámetros o
de los valores.
12.2. DISTRIBUCIóN DE POISSON 83
n k/p 0, 05 0, 10 0, 15 0, 20 0, 25 0, 30 0, 35 0, 40 0, 45 0, 50
1 0 0, 9500 0, 9000 0, 8500 0, 8000 0, 7500 0, 7000 0, 6500 0, 6000 0, 5500 0, 5000
1 0, 0500 0, 1000 0, 1500 0, 2000 0, 2500 0, 3000 0, 3500 0, 4000 0, 4500 0, 5000
2 0 0, 9025 0, 8100 0, 7225 0, 6400 0, 5625 0, 4900 0, 4225 0, 3600 0, 3025 0, 2500
1 0, 0950 0, 1800 0, 2550 0, 3200 0, 3750 0, 4200 0, 4550 0, 4800 0, 4950 0, 5000
2 0, 0025 0, 0100 0, 0225 0, 0400 0, 0625 0, 0900 0, 1225 0, 1600 0, 2025 0, 2500
3 0 0, 8574 0, 7290 0, 6141 0, 5120 0, 4219 0, 3430 0, 2746 0, 2160 0, 1664 0, 1250
1 0, 1354 0, 2430 0, 3251 0, 3840 0, 4219 0, 4410 0, 4436 0, 4320 0, 4084 0, 3750
2 0, 0071 0, 0270 0, 0574 0, 0960 0, 1406 0, 1890 0, 2389 0, 2880 0, 3341 0, 3750
3 0, 0001 0, 0010 0, 0034 0, 0080 0, 0156 0, 0270 0, 0429 0, 0640 0, 0911 0, 1250
4 0 0, 8145 0, 6561 0, 5220 0, 4096 0, 3164 0, 2401 0, 1785 0, 1296 0, 0915 0, 0625
1 0, 1715 0, 2916 0, 3685 0, 4096 0, 4219 0, 4116 0, 3845 0, 3456 0, 2995 0, 2500
2 0, 0135 0, 0486 0, 0975 0, 1536 0, 2109 0, 2646 0, 3105 0, 3456 0, 3675 0, 3750
3 0, 0005 0, 0036 0, 0115 0, 0256 0, 0469 0, 0756 0, 1115 0, 1536 0, 2005 0, 2500
4 0, 0000 0, 0001 0, 0005 0, 0016 0, 0039 0, 0081 0, 0150 0, 0256 0, 0410 0, 0625
5 0 0, 7738 0, 5905 0, 4437 0, 3277 0, 2373 0, 1681 0, 1160 0, 0778 0, 0503 0, 0313
1 0, 2036 0, 3281 0, 3915 0, 4096 0, 3955 0, 3602 0, 3124 0, 2592 0, 2059 0, 1563
2 0, 0214 0, 0729 0, 1382 0, 2048 0, 2637 0, 3087 0, 3364 0, 3456 0, 3369 0, 3125
3 0, 0011 0, 0081 0, 0244 0, 0512 0, 0879 0, 1323 0, 1811 0, 2304 0, 2757 0, 3125
4 0, 0000 0, 0004 0, 0022 0, 0064 0, 0146 0, 0284 0, 0488 0, 0768 0, 1128 0, 1563
5 0, 0000 0, 0000 0, 0001 0, 0003 0, 0010 0, 0024 0, 0053 0, 0102 0, 0185 0, 0313
6 0 0, 7351 0, 5314 0, 3771 0, 2621 0, 1780 0, 1176 0, 0754 0, 0467 0, 0277 0, 0156
1 0, 2321 0, 3543 0, 3993 0, 3932 0, 3560 0, 3025 0, 2437 0, 1866 0, 1359 0, 0938
2 0, 0305 0, 0984 0, 1762 0, 2458 0, 2966 0, 3241 0, 3280 0, 3110 0, 2780 0, 2344
3 0, 0021 0, 0146 0, 0415 0, 0819 0, 1318 0, 1852 0, 2355 0, 2765 0, 3032 0, 3125
4 0, 0001 0, 0012 0, 0055 0, 0154 0, 0330 0, 0595 0, 0951 0, 1382 0, 1861 0, 2344
5 0, 0000 0, 0001 0, 0004 0, 0015 0, 0044 0, 0102 0, 0205 0, 0369 0, 0609 0, 0938
6 0, 0000 0, 0000 0, 0000 0, 0001 0, 0002 0, 0007 0, 0018 0, 0041 0, 0083 0, 0156
7 0 0, 6983 0, 4783 0, 3206 0, 2097 0, 1335 0, 0824 0, 0490 0, 0280 0, 0152 0, 0078
1 0, 2573 0, 3720 0, 3960 0, 3670 0, 3115 0, 2471 0, 1848 0, 1306 0, 0872 0, 0547
2 0, 0406 0, 1240 0, 2097 0, 2753 0, 3115 0, 3177 0, 2985 0, 2613 0, 2140 0, 1641
3 0, 0036 0, 0230 0, 0617 0, 1147 0, 1730 0, 2269 0, 2679 0, 2903 0, 2918 0, 2734
4 0, 0002 0, 0026 0, 0109 0, 0287 0, 0577 0, 0972 0, 1442 0, 1935 0, 2388 0, 2734
5 0, 0000 0, 0002 0, 0012 0, 0043 0, 0115 0, 0250 0, 0466 0, 0774 0, 1172 0, 1641
6 0, 0000 0, 0000 0, 0001 0, 0004 0, 0013 0, 0036 0, 0084 0, 0172 0, 0320 0, 0547
7 0, 0000 0, 0000 0, 0000 0, 0000 0, 0001 0, 0002 0, 0006 0, 0016 0, 0037 0, 0078
8 0 0, 6634 0, 4305 0, 2725 0, 1678 0, 1001 0, 0576 0, 0319 0, 0168 0, 0084 0, 0039
1 0, 2793 0, 3826 0, 3847 0, 3355 0, 2670 0, 1977 0, 1373 0, 0896 0, 0548 0, 0313
2 0, 0515 0, 1488 0, 2376 0, 2936 0, 3115 0, 2965 0, 2587 0, 2090 0, 1569 0, 1094
3 0, 0054 0, 0331 0, 0839 0, 1468 0, 2076 0, 2541 0, 2786 0, 2787 0, 2568 0, 2188
4 0, 0004 0, 0046 0, 0185 0, 0459 0, 0865 0, 1361 0, 1875 0, 2322 0, 2627 0, 2734
5 0, 0000 0, 0004 0, 0026 0, 0092 0, 0231 0, 0467 0, 0808 0, 1239 0, 1719 0, 2188
6 0, 0000 0, 0000 0, 0002 0, 0011 0, 0038 0, 0100 0, 0217 0, 0413 0, 0703 0, 1094
7 0, 0000 0, 0000 0, 0000 0, 0001 0, 0004 0, 0012 0, 0033 0, 0079 0, 0164 0, 0313
8 0, 0000 0, 0000 0, 0000 0, 0000 0, 0000 0, 0001 0, 0002 0, 0007 0, 0017 0, 0039
12.3. DISTRIBUCIóN NORMAL 87
λ/x 0 1 2 3 4 5 6 7 8 9
0, 1 0, 9048 0, 0905 0, 0045 0, 0002
0, 2 0, 8187 0, 1637 0, 0164 0, 0011 0, 0001
0, 3 0, 7408 0, 2222 0, 0333 0, 0033 0, 0003
0, 4 0, 6703 0, 2681 0, 0536 0, 0072 0, 0007 0, 0001
0, 5 0, 6065 0, 3033 0, 0758 0, 0126 0, 0016 0, 0002
0, 6 0, 5488 0, 3293 0, 0988 0, 0198 0, 0030 0, 0004
0, 7 0, 4966 0, 3476 0, 1217 0, 0284 0, 0050 0, 0007 0, 0001
0, 8 0, 4493 0, 3595 0, 1438 0, 0383 0, 0077 0, 0012 0, 0002
0, 9 0, 4066 0, 3659 0, 1647 0, 0494 0, 0111 0, 0020 0, 0003
1 0, 3679 0, 3679 0, 1839 0, 0613 0, 0153 0, 0031 0, 0005 0, 0001
1, 1 0, 3329 0, 3662 0, 2014 0, 0738 0, 0203 0, 0045 0, 0008 0, 0001
1, 2 0, 3012 0, 3614 0, 2169 0, 0867 0, 0260 0, 0062 0, 0012 0, 0002
1, 3 0, 2725 0, 3543 0, 2303 0, 0998 0, 0324 0, 0084 0, 0018 0, 0003 0, 0001
1, 4 0, 2466 0, 3452 0, 2417 0, 1128 0, 0395 0, 0111 0, 0026 0, 0005 0, 0001
1, 5 0, 2231 0, 3347 0, 2510 0, 1255 0, 0471 0, 0141 0, 0035 0, 0008 0, 0001
1, 6 0, 2019 0, 3230 0, 2584 0, 1378 0, 0551 0, 0176 0, 0047 0, 0011 0, 0002
1, 7 0, 1827 0, 3106 0, 2640 0, 1496 0, 0636 0, 0216 0, 0061 0, 0015 0, 0003 0, 0001
1, 8 0, 1653 0, 2975 0, 2678 0, 1607 0, 0723 0, 0260 0, 0078 0, 0020 0, 0005 0, 0001
1, 9 0, 1496 0, 2842 0, 2700 0, 1710 0, 0812 0, 0309 0, 0098 0, 0027 0, 0006 0, 0001
2 0, 1353 0, 2707 0, 2707 0, 1804 0, 0902 0, 0361 0, 0120 0, 0034 0, 0009 0, 0002
2, 1 0, 1225 0, 2572 0, 2700 0, 1890 0, 0992 0, 0417 0, 0146 0, 0044 0, 0011 0, 0003
2, 2 0, 1108 0, 2438 0, 2681 0, 1966 0, 1082 0, 0476 0, 0174 0, 0055 0, 0015 0, 0004
2, 3 0, 1003 0, 2306 0, 2652 0, 2033 0, 1169 0, 0538 0, 0206 0, 0068 0, 0019 0, 0005
2, 4 0, 0907 0, 2177 0, 2613 0, 2090 0, 1254 0, 0602 0, 0241 0, 0083 0, 0025 0, 0007
2, 5 0, 0821 0, 2052 0, 2565 0, 2138 0, 1336 0, 0668 0, 0278 0, 0099 0, 0031 0, 0009
2, 6 0, 0743 0, 1931 0, 2510 0, 2176 0, 1414 0, 0735 0, 0319 0, 0118 0, 0038 0, 0011
2, 7 0, 0672 0, 1815 0, 2450 0, 2205 0, 1488 0, 0804 0, 0362 0, 0139 0, 0047 0, 0014
2, 8 0, 0608 0, 1703 0, 2384 0, 2225 0, 1557 0, 0872 0, 0407 0, 0163 0, 0057 0, 0018
2, 9 0, 0550 0, 1596 0, 2314 0, 2237 0, 1622 0, 0940 0, 0455 0, 0188 0, 0068 0, 0022
3 0, 0498 0, 1494 0, 2240 0, 2240 0, 1680 0, 1008 0, 0504 0, 0216 0, 0081 0, 0027
3, 1 0, 0450 0, 1397 0, 2165 0, 2237 0, 1733 0, 1075 0, 0555 0, 0246 0, 0095 0, 0033
3, 2 0, 0408 0, 1304 0, 2087 0, 2226 0, 1781 0, 1140 0, 0608 0, 0278 0, 0111 0, 0040
3, 3 0, 0369 0, 1217 0, 2008 0, 2209 0, 1823 0, 1203 0, 0662 0, 0312 0, 0129 0, 0047
3, 4 0, 0334 0, 1135 0, 1929 0, 2186 0, 1858 0, 1264 0, 0716 0, 0348 0, 0148 0, 0056
3, 6 0, 0273 0, 0984 0, 1771 0, 2125 0, 1912 0, 1377 0, 0826 0, 0425 0, 0191 0, 0076
3, 8 0, 0224 0, 0850 0, 1615 0, 2046 0, 1944 0, 1477 0, 0936 0, 0508 0, 0241 0, 0102
4 0, 0183 0, 0733 0, 1465 0, 1954 0, 1954 0, 1563 0, 1042 0, 0595 0, 0298 0, 0132
5 0, 0067 0, 0337 0, 0842 0, 1404 0, 1755 0, 1755 0, 1462 0, 1044 0, 0653 0, 0363
6 0, 0025 0, 0149 0, 0446 0, 0892 0, 1339 0, 1606 0, 1606 0, 1377 0, 1033 0, 0688
7 0, 0009 0, 0064 0, 0223 0, 0521 0, 0912 0, 1277 0, 1490 0, 1490 0, 1304 0, 1014
8 0, 0003 0, 0027 0, 0107 0, 0286 0, 0573 0, 0916 0, 1221 0, 1396 0, 1396 0, 1241
9 0, 0001 0, 0011 0, 0050 0, 0150 0, 0337 0, 0607 0, 0911 0, 1171 0, 1318 0, 1318
10 0, 0005 0, 0023 0, 0076 0, 0189 0, 0378 0, 0631 0, 0901 0, 1126 0, 1251
88 12. DISTRIBUCIONES NOTABLES
x 0 0, 01 0, 02 0, 03 0, 04 0, 05 0, 06 0, 07 0, 08 0, 09
0 0, 5000 0, 5040 0, 5080 0, 5120 0, 5160 0, 5199 0, 5239 0, 5279 0, 5319 0, 5359
0, 1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753
0, 2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141
0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517
0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879
0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224
0, 6 0, 7257 0, 7291 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549
0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852
0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133
0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389
1 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621
1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830
1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015
1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177
1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319
1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441
1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545
1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633
1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706
1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767
2 0, 9772 0, 9778 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817
2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857
2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890
2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916
2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936
2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952
2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964
2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974
2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981
2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986
3 0, 9987 0, 9987 0, 9987 0, 9988 0, 9988 0, 9989 0, 9989 0, 9989 0, 9990 0, 9990
3, 1 0, 9990 0, 9991 0, 9991 0, 9991 0, 9992 0, 9992 0, 9992 0, 9992 0, 9993 0, 9993
3, 2 0, 9993 0, 9993 0, 9994 0, 9994 0, 9994 0, 9994 0, 9994 0, 9995 0, 9995 0, 9995
3, 3 0, 9995 0, 9995 0, 9995 0, 9996 0, 9996 0, 9996 0, 9996 0, 9996 0, 9996 0, 9997
3, 4 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9998
3, 5 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998
3, 6 0, 9998 0, 9998 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999
Capítulo 13
(−∞ < c < d < ∞); entonces la variable bidimensional (X, Y ) tomará
valores en el rectángulo (a, b] × (c, d].
Definición. Llamamos función de densidad conjunta de la variable
(X, Y ), a una función f , que cumple las siguientes condiciones:
f : (x, y) ∈ (a, b] × (c, d] → f (x, y) ∈ �
ˆ bˆ d
f (x, y) ≥ 0, ∀(x, y) ∈ (a, b] × (c, d], f (x, y)dxdy = 1
a c
Distribuciones marginales.
⇒ Variables discretas:
Cuando las variables son discretas, la función de probabilidad marginal
de X, viene dada por:
∞
�
P (xi ) = P (X = xi , Y < ∞) = P (xi , yj )
j=1
⇒ Variables continuas:
Cuando la variable es continua, definimos las funciones de distribución
marginal de X e Y respectivamente, como sigue:
ˆ ∞ˆ x
FX (x) = lı́m F (x, y) = f (x, y)dxdy
y→∞ −∞ −∞
y:
ˆ ∞ ˆ y
FY (y) = lı́m F (x, y) = f (x, y)dxdy
x→∞ −∞ −∞
Teoremas límites
Inferencia Estadística
Si fuera conocida, Introducción
se podría realizar
Como ya se observó en la parte de Estadística Descriptiva, la Infe-
un análisis des-
rencia Estadística consiste en inferir o inducir los resultados obtenidos
criptivo sobre ella
para una muestra a conjuntos más numerosos.
y por tanto no
El esquema general que se sigue en la inferencia Estadística es el
tendría sentido la
siguiente: Se parte de una población que se supone desconocida total o
inferencia (salvo
parcialmente. Hablamos de un desconocimiento parcial cuando la po-
que el coste de
blación es conocida a excepción de ciertas características o parámetros
observación de
de los cuales depende y que una vez determinados, la población resulta
aquella sea ex-
totalmente conocida.
cesivo para los
Para disminuir el desconocimiento de la población se selecciona una
medios disponi-
muestra representativa de la misma. Conocer una muestra es conocer
bles)
una parte de la población que nos proporciona cierta información sobre
ésta.
Para esta muestra podemos obtener los parámetros característicos
que eran desconocidos en la población.
El proceso de inducción consiste en suponer que el resto de la po-
blación se comporta como esta parte ya conocida y por lo tanto, se
podrían extrapolar las conclusiones obtenidas a todo el colectivo.
En todo proceso inductivo se juzga el todo por las partes; por lo que
nunca podremos tener la seguridad absoluta de que el comportamiento
de la población sea el proyectado a través de la muestra, salvo cuando
la parte coincida con el todo.
Por lo tanto, la inferencia lleva consigo determinados grados de
seguridad o verosimilitud, y estos grados son cuantificados en términos
de probabilidad.
Hasta el momento, hemos estudiado dos campos muy diferenciados
dentro de la Estadística, el citado de la Estadística Descriptiva y una
introducción a la Teoría de la Probabilidad y los modelos probabilísti-
cos. La Inferencia estadística lleva implícito una combinación de ambos
procesos.
Capítulo 15
Es un abuso de
Teoría de muestras y distribuciones muestrales lenguaje; pero a
cada unidad de la
Consideremos una población E, que podemos identificar con una población, X le
v.a. X; conocidos los valores que ésta puede tomar y su función de asigna un valor,
distribución, la población queda determinada. Por lo general, esta po- por tanto nos da
blación o variable resulta desconocida parcial o totalmente. Nuestro lo mismo conocer
objetivo es llegar a la determinación, aunque sea probabilístico, de esa las unidades que
población o variable. los valores.
Para ello, una solución sería observar todos los elementos de la
población (todos los valores que va tomando la variable); sin embargo,
tal solución, generalmente no es satisfactoria; problemas de tiempo,
costo o simplemente por tratarse de poblaciones infinitas o procesos
destructivos, nos impide llevarla a cabo.
La otra alternativa que nos queda es seleccionar una parte de esa
población, una muestra, analizarla por métodos descriptivos y extra-
polar sus resultados. Con los resultados de esta muestra, podremos
contrastar o estimar el modelo probabilístico de la población y/o los
parámetros que la especifican.
Cuando la muestra es aleatoria, los valores se eligen al azar, inter-
viene la probabilidad y ello nos permite que las estimaciones anteriores
no sean gratuitas, sino que las podemos acompañar de ciertos grados
de confianza, expresados en términos probabilísticos.
los valores que puede tomar la variable aleatoria, y por tanto toma los
mismos valores que X y tiene su misma función de distribución.
Denotemos por F ∗ la función de distribución de la muestra y por
F la de X. Cuando la muestra es de tamaño uno, se tiene:
Reposición. Se F ∗ (x) = F (x) ; ∀x ∈ �
selecciona un
Supongamos ahora, que vamos a tomar una muestra de tamaño dos,
elemento, y se
es decir, vamos a elegir dos elementos aleatorios de esa población.
repone de nuevo
Si la población es infinita, o bien finita pero se sigue un método de
a la población
muestreo aleatorio con reposición , las extracciones no guardan ninguna
relación entre si, son independientes y por tanto podemos considerar
cada extracción como una prueba del experimento independiente de
las demás. En lo que sigue, siempre que no se indique lo contrario,
entenderemos que se trata de poblaciones infinitas.
Entonces seleccionar una muestra aleatoria de tamaño dos, será
equivalente a observar una variable aleatoria bidimensional (X1 , X2 ) o
dos variables unidimensionales X1 y X2 independientes entre si, por
tanto la función de distribución de la muestra, F ∗ (x1 , x2 ), puede ex-
presarse como:
F ∗ (x1 , x2 ) = F (x1 )F (x2 )
Por otra parte, como cada una de las componentes tiene la misma
distribución que la variable original X, se tiene:
F ∗ (x1 , x2 ) = F (x)F (x) = (F (x))2
Consideremos ahora el caso general de una muestra de tamaño n;
el conjunto de todos los valores posibles que pueden aparecer en esta
muestra, corresponde al espacio muestra de una variable n-dimensional
(X1 , · · · , Xn ) donde cada componente es independiente de las demás y
están idénticamente distribuidas que la variable X (la muestra genérica
de tamaño n, está definida en En y toma valores en �n ). entonces la
función de distribución de la muestra puede expresarse como:
Algunos progra- cifra aleatoria; a partir de ahí continuamos seleccionando números con-
mas informáti- secutivos, bien por filas o por columnas, hasta que el número de cifras
cos facilitan di- seleccionadas coincida con el tamaño de la muestra. En este momento,
rectamente una volvemos a la población y elegimos para formar parte de la muestra,
muestra, sin que las unidades cuya numeración coincida con las cifras seleccionadas’.
tengamos que La aleatoriedad de la muestra elegida, viene garantizada por la de
preocuparnos por la tabla de números aleatorios.
este tema Otro problema que se nos puede plantear es el siguiente: ¿Cómo
podemos numerar los elementos de una población si ésta es infinita?
Aunque en mu-
Evidentemente cuando la población es infinita, no podemos emplear
chos casos son
la técnica anterior, ni aún en el caso de que ésta sea numerable (¿cuán-
pseudo-aleatorios
tos dígitos utilizar?, su número dependerá del tamaño de la población).
En estos casos, lo que suele hacerse es sustituir esta población por
otra finita, construida artificialmente (Método de Monte Carlo), que
tenga aproximadamente la misma composición que la población original
y muestrear en esta segunda población.
T : (X1 , · · · , Xn ) ∈ En → T (X1 , · · · , Xn ) ∈ �
⇒ La varianza muestral
� n � �2
2 X i − X̄
SX = =T
i=1
n
Nota 30. Si la población depende de determinados parámetros desco-
nocidos (µ, σ 2 , · · · ) y se emplean los estadísticos (X̄, SX
2
, · · · ) que nos
permiten estimar los parámetros a partir de una muestra aleatoria, a
tales estadísticos, generalmente, se les denomina estimadores.
Nota 31. Si utilizamos la media y la varianza muestrales, para estimar
la esperanza y la varianza poblacionales, podemos observar cómo exis-
te un paralelismo entre sus ecuaciones; se ha trasladado la definición
del parámetro a la muestra. A esta técnica de obtener estimadores,
se la denomina método de analogía, y a los estadísticos construidos,
estimadores analógicos.
U na cola
g.l./p 0, 001 0, 0025 0, 005 0, 01 0, 025 0, 05 0, 1 0, 25
Dos colas
g.l./p 0, 002 0, 005 0, 01 0, 02 0, 05 0, 1 0, 2 0, 5
1 636, 6192 254, 6466 127, 3213 63, 6567 25, 4517 12, 7062 6, 3138 2, 4142
2 31, 5991 19, 9625 14, 0890 9, 9248 6, 2053 4, 3027 2, 9200 1, 6036
3 12, 9240 9, 4649 7, 4533 5, 8409 4, 1765 3, 1824 2, 3534 1, 4226
4 8, 6103 6, 7583 5, 5976 4, 6041 3, 4954 2, 7764 2, 1318 1, 3444
5 6, 8688 5, 6042 4, 7733 4, 0321 3, 1634 2, 5706 2, 0150 1, 3009
6 5, 9588 4, 9807 4, 3168 3, 7074 2, 9687 2, 4469 1, 9432 1, 2733
7 5, 4079 4, 5946 4, 0293 3, 4995 2, 8412 2, 3646 1, 8946 1, 2543
8 5, 0413 4, 3335 3, 8325 3, 3554 2, 7515 2, 3060 1, 8595 1, 2403
9 4, 7809 4, 1458 3, 6897 3, 2498 2, 6850 2, 2622 1, 8331 1, 2297
10 4, 5869 4, 0045 3, 5814 3, 1693 2, 6338 2, 2281 1, 8125 1, 2213
11 4, 4370 3, 8945 3, 4966 3, 1058 2, 5931 2, 2010 1, 7959 1, 2145
12 4, 3178 3, 8065 3, 4284 3, 0545 2, 5600 2, 1788 1, 7823 1, 2089
13 4, 2208 3, 7345 3, 3725 3, 0123 2, 5326 2, 1604 1, 7709 1, 2041
14 4, 1405 3, 6746 3, 3257 2, 9768 2, 5096 2, 1448 1, 7613 1, 2001
15 4, 0728 3, 6239 3, 2860 2, 9467 2, 4899 2, 1314 1, 7531 1, 1967
16 4, 0150 3, 5805 3, 2520 2, 9208 2, 4729 2, 1199 1, 7459 1, 1937
17 3, 9651 3, 5429 3, 2224 2, 8982 2, 4581 2, 1098 1, 7396 1, 1910
18 3, 9216 3, 5101 3, 1966 2, 8784 2, 4450 2, 1009 1, 7341 1, 1887
19 3, 8834 3, 4812 3, 1737 2, 8609 2, 4334 2, 0930 1, 7291 1, 1866
20 3, 8495 3, 4554 3, 1534 2, 8453 2, 4231 2, 0860 1, 7247 1, 1848
21 3, 8193 3, 4325 3, 1352 2, 8314 2, 4138 2, 0796 1, 7207 1, 1831
22 3, 7921 3, 4118 3, 1188 2, 8188 2, 4055 2, 0739 1, 7171 1, 1815
23 3, 7676 3, 3931 3, 1040 2, 8073 2, 3979 2, 0687 1, 7139 1, 1802
24 3, 7454 3, 3761 3, 0905 2, 7969 2, 3909 2, 0639 1, 7109 1, 1789
25 3, 7251 3, 3606 3, 0782 2, 7874 2, 3846 2, 0595 1, 7081 1, 1777
26 3, 7066 3, 3464 3, 0669 2, 7787 2, 3788 2, 0555 1, 7056 1, 1766
27 3, 6896 3, 3334 3, 0565 2, 7707 2, 3734 2, 0518 1, 7033 1, 1756
28 3, 6739 3, 3214 3, 0469 2, 7633 2, 3685 2, 0484 1, 7011 1, 1747
29 3, 6594 3, 3102 3, 0380 2, 7564 2, 3638 2, 0452 1, 6991 1, 1739
30 3, 6460 3, 2999 3, 0298 2, 7500 2, 3596 2, 0423 1, 6973 1, 1731
40 3, 5510 3, 2266 2, 9712 2, 7045 2, 3289 2, 0211 1, 6839 1, 1673
50 3, 4960 3, 1840 2, 9370 2, 6778 2, 3109 2, 0086 1, 6759 1, 1639
60 3, 4602 3, 1562 2, 9146 2, 6603 2, 2990 2, 0003 1, 6706 1, 1616
70 3, 4350 3, 1366 2, 8987 2, 6479 2, 2906 1, 9944 1, 6669 1, 1600
80 3, 4163 3, 1220 2, 8870 2, 6387 2, 2844 1, 9901 1, 6641 1, 1588
90 3, 4019 3, 1108 2, 8779 2, 6316 2, 2795 1, 9867 1, 6620 1, 1578
100 3, 3905 3, 1018 2, 8707 2, 6259 2, 2757 1, 9840 1, 6602 1, 1571
o, equivalentemente:
σ
(15.6.1) X̄ → N (µ, √ )
n→∞ n
1Para
obtener la distribución de la media o de la diferencia de medias cuando se
conoce la varianza, no es necesario suponer que la población sigue una ley normal.
15.6. ALGUNAS DISTRIBUCIONES ASOCIADAS AL PROCESO DE MUESTREO
113
Nota 37. Como caso particular, cuando las dos muestras proceden de
la misma población, µX = µY , y σX = σY , entonces la distribución de
la diferencia de medias sería:
� � �
1 1
X̄ − Ȳ ≈ N 0, + σ
n m
Estimación Conocemos su
modelo proba-
bilístico, a ex-
El proceso de estimación tiene como finalidad la obtención del mo-
cepción de uno o
delo explícito de probabilidad que sigue una población o variable alea-
más parámetros
toria X, a partir de una muestra de tamaño n, sobre el cual existe un
que lo especifican
desconocimiento parcial o total. Si el desconocimiento es parcial, los
métodos de estimación tratan de obtener los parámetros desconocidos,
por lo que a tales métodos se les denomina paramétricos. Por el con-
trario, si existe un desconocimiento total de la población, los métodos
de estimación se llaman no paramétricos.
Vamos a limitarnos sólo a los problemas de estimación paramétrica,
y dentro de éstos al caso más sencillo en que la distribución de X depen-
de de un solo parámetro (aunque su generalización a una dependencia
de dos o más parámetros, no reviste dificultad).
Las estimaciones que se realizan no son más que inferencias ob-
tenidas a partir de la muestra mediante el empleo de un estimador
adecuado. Esto nos lleva a la necesidad de plantearnos: ¿Cómo obtener
estimadores?, y cuando exista más de un estimador ¿Cómo discernir
cual es el más apropiado?. A estos interrogantes contestan las dos pri-
meras secciones de este tema.
Por otra parte, las estimaciones que se pueden hacer son de dos
tipos: estimación puntual y estimación por intervalos. Nos referimos a
estimaciones puntuales cuando tratamos de obtener una aproximación
al valor correcto del parámetro desconocido; estas estimaciones variarán
con la muestra elegida, por lo cual a veces puede resultar más intere-
sante hallar unos límites de confianza entre los cuales ’debe’ oscilar el
valor del parámetro, que obtener un determinado valor del mismo. Este
segundo tipo de problemas se conoce como estimación por intervalos.
Estos aspectos serán tratados en la última sección del tema.
Nota 40. Esta propiedad es muy intuitiva; nos dice que cuando la
muestra es grande, se dispone de más información y por lo tanto, debe-
ríamos de tener una seguridad mayor en obtener estimaciones próximas
al verdadero valor.
Otra propiedad Puede ocurrir que un estimador θ̂1 sea más eficiente que otro θ̂2 ,
exigible es la de pero que este segundo sea consistente y el primero no. Entonces si
suficiencia, que tenemos la posibilidad de tomar una muestra mayor, a partir de un
aproveche toda la determinado tamaño, el segundo será preferible al primero.
información de la Parece natural exigir a un estimador para que sea catalogable de
muestra ’bueno’ que sea insesgado, eficiente y consistente . Sin embargo, en mu-
chos casos no podremos encontrar estimadores satisfaciendo todas estas
propiedades, por lo que este listado de propiedades deseables puede ser
utilizado como un criterio para clasificar la ’bondad’ de los estimadores.
θ̂ = θ̂ (X1 , · · · , Xn )
que es una función continua y monótona de θ y cuya distribución no
dependa de parámetros.
Entonces, si conocemos la distribución del estimador, podemos en-
contrar dos cantidades γ1 y γ2 tales que, para un nivel de confianza
1 − α, se tenga:
� �
P γ1 ≤ θ̂(X1 , · · · , Xn ) ≤ γ2 = 1 − α
Resolviendo las ecuaciones:
γ1 = θ̂(X1 , · · · , Xn ) , γ2 = θ̂(X1 , · · · , Xn )
obtenemos unas soluciones genéricas θ̂1 (X1 , · · · , Xn ) y θ̂2 (X1 , · · · , Xn ),
tales que, si:
γ1 ≤ θ̂ ≤ γ2 ⇒ θ̂1 ≤ θ ≤ θ̂2
y: � �
P θ̂1 ≤ θ ≤ θ̂2 = 1 − α
Evidentemente θ̂1 y θ̂2 son dos variables aleatorias que pueden tomar
muchos valores diferentes. Sin embargo, nos interesará que los límites
de confianza estén lo más próximos posibles. Si la distribución del es-
timador es campaniforme, la amplitud del intervalo de confianza será
menor cuando θ̂1 y θ̂2 sean equidistantes del centro de la distribución.
Luego, los límites de confianza óptimos serán de la forma: θ̂−� , θ̂+�.
Por otra parte, � siempre se puede expresar como k veces la desvia-
ción típica del estimador. Así pues, cuando conozcamos la distribución
que sigue el estimador, para determinar el intervalo de confianza a un
nivel 1 − α, (nivel que se fija de antemano), será suficiente buscar en
las tablas correspondientes el valor de k, tal que:
� � � � � �
P θ̂ − kσ ≤ θ ≤ θ̂ + kσ = F θ̂ + kσ − F θ̂ − kσ = 1 − α
122 16. ESTIMACIóN
Una vez vistos los aspectos generales de esta teoría, vamos a centrar-
Cuando no se nos ahora en algunas aplicaciones que nos permiten obtener intervalos
conoce la dis- de confianza para determinados estimadores.
tribución de ⇒ Intervalo de confianza para la media cuando se conoce
la población, la varianza
pero la mues-
tra es grande,
Hemos visto que, cuando la población se distribuye normalmente � con
�
� �
X̄ → N µ, √σn parámetros µ y σ, la media muestral sigue una distribución N µ, √n . σ
Entonces:
X̄ − µ √
n ≈ N (0, 1)
σ
Por tanto, fijado un nivel de confianza 1 − α, podemos buscar en
las tablas de la distribución normal aquel valor de kα tal que:
� �
X̄ − µ √
P −kα ≤ n ≤ kα = 2F (kα ) − 1 = 1 − α
σ
esta probabilidad, puede expresarse también como:
� �
kα σ kα σ
P X̄ − √ ≤ µ ≤ X̄ + √ =1−α
n n
entonces: � �
kα σ kα σ
X̄ − √ , X̄ + √
n n
es un intervalo de confianza a un nivel 1−α, para la media poblacional.
16.3. ESTIMACIóN POR INTERVALOS 123
de donde: � �
S S
X̄ − kα √ , X̄ + kα √
n−1 n−1
es un intervalo de confianza para la media poblacional (cuando no se
conoce la varianza), para un nivel de confianza 1 − α.
⇒ Intervalo de confianza para la diferencia de medias cuan-
do no se conoce la varianza
El estadístico: � � � nm
X̄ − Ȳ n+m
T = � 2 2
nSX +mSY
n+m−2
entonces, el intervalo:
� � � �
2 2 2
(nSX + mSY ) (n + m) (nSX + mSY2 ) (n + m)
(X̄ − Ȳ ) − kα , (X̄ − Ȳ ) + kα
nm(n + m − 2) nm(n + m − 2)
es de confianza a un nivel 1 − α, para estimar la diferencia de medias
poblacionales.
⇒ Intervalo de confianza para la proporción
Si en vez de observar una variable cuantitativa, se trata de una ca- Es un caso par-
racterística cualitativa, una estimación muy frecuente es la proporción ticular de la es-
de individuos de la población con unas determinadas características, a timación de la
partir de la población observada en la muestra. media.
La distribución del estimador P sigue un modelo binomial, cuyas
características son:
pq
E(P ) = p , y V ar(P ) =
n
siendo p la proporción en la población y q = 1 − p.
Para obtener intervalos de confianza de la proporción, cuando la
muestra es grande hacemos uso de la aproximación de la binomial a la
normal.
De esta forma:
P −p
� pq → N (0, 1)
n→∞
n
por lo que fijado un nivel de confianza 1 − α podemos determinar en
las tablas el valor kα tal que:
� �
P −p
P −kα ≤ � pq ≤ kα = 1 − α
n
y por tanto: � � � �
pq pq
p − kα , p + kα
n n
es un intervalo de confianza, a un nivel 1 − α, para la proporción.
Cuando la varianza de la proporción pq n
es desconocida, se estima a
partir de la muestra mediante:
P (1 − P )
n−1
Cuando la muestra es pequeña, debemos de recurrir a las tablas de n viene indicado
la distribución binomial, en la cual fijado un nivel de confianza 1 − α, por el tamaño de
podemos encontrar dos valores del parámetro p: p1 y p2 tal que: la muestra.
α α
P (X ≥ nP |p1 ) = y P (X ≤ nP |p2 ) =
2 2
126 16. ESTIMACIóN
Contraste de hipótesis
P (N (0, 1) ≤ kα ) = 1 − α
Regla de decisión: si,
�
2
σ2
X̄ − Ȳ > kα X + Y
n m
se rechaza la hipótesis, en otro caso no se rechaza.
3. H0 : µX > µY frente a H1 : µX ≤ µY En este caso utilizamos el
mismo test que en 2. La región de re-
Regla de decisión: Si chazo siempre
� va en la misma
2
σ2 dirección que la
X̄ − Ȳ ≤ −kα X + Y hipótesis alterna-
n m
se rechaza, en otro caso no se rechaza. tiva.
X̄ − µ √
T = n−1
S
sigue una distribución t, con n − 1 grados de libertad.
Contrastes:
1. H0 : µ = µ0 frente a H1 : µ �= µ0
En las tablas de la distribución t, fijado un nivel de signi-
ficación α, podemos encontrar un número kα , en la fila corres-
pondiente a n − 1, tal que:
P (−kα ≤ t ≤ kα ) = 1 − α
entonces, el intervalo:
� �
s s
µ0 − k α √ , µ 0 + kα √
n−1 n−1
es la región de aceptación del test.
Regla de decisión: Calculamos la media muestral; si no per-
tenece al intervalo anterior rechazamos la hipótesis, en otro caso
no la rechazamos.
17.2. ALGUNOS TEST IMPORTANTES 133
2. H0 : µ ≤ µ0 frente a H1 : µ > µ0
Fijado un nivel α, determinamos kα en la tabla de la distri-
bución t, tal que:
(17.2.2) P (tn−1 ≤ kα ) = 1 − α
Regla de decisión: Calculamos la media de la muestra; si
ésta es mayor que µ0 + kα √n−1
S
rechazamos la hipótesis, en otro
caso no lo rechazamos.
3. H0 : µ > µ0 frente a H1 : µ ≤ µ0
Regla de decisión: Si la media muestral nos sale menor o
igual que µ0 − kα √n−1
S
, siendo kα determinado por la ecuación
17.2.2, rechazamos la hipótesis y en otro caso no la rechazamos.
⇒ Test para contrastar la diferencia de medias cuando no
se conoce la varianza.
Estadístico: � nm
(X̄ − Ȳ ) n+m
t= � 2
nSX +mSY2
n+m−2
1. El cuestionario.
El cuestionario es el instrumento que facilita la transición de
la información desde el informador individual al receptor. Esta
información se plasma a través de una serie de preguntas que
constituyen el cuestionario.
La fiabilidad de los resultados de una encuesta dependerá
en gran medida de la presentación del cuestionario, por lo que
debe prestarse la máxima atención a su elaboración. Algunas
consideraciones a tener en cuenta son:
a El número de preguntas: Ha de ser suficiente para recoger
la información necesaria, pero a la vez no ha de ser excesivo
El censo agrario
ya que puede conducir a un agotamiento en el entrevistado
tiene más de 800
y esto a un falseamiento de la información suministrada por
preguntas.
el mismo.
b Forma de presentar las preguntas: Las preguntas pueden ser:
dicotómicas, de varias alternativas y de respuesta libre. Es-
tas últimas son las que plantean mayores problemas dada
su dificultad de tabulación.
c Redacción correcta de las preguntas: Este es un factor im-
portante en la elaboración del cuestionario. Las preguntas
deben ser redactadas con claridad y expresadas en un len-
guaje afín al colectivo al que va dirigida la encuesta.
d Evitar preguntas tendenciosas: Estas podrían no sólo sesgar
esta respuesta, sino también producir un falseamiento en las
restantes.
e Orden de las preguntas: Existen algunos estudios sobre este
aspecto, de los cuales se desprende que el informador pres-
ta más atención a las preguntas situadas al principio y al
140 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS
6. Estimación.
Estas dos etapas se desarrollan en las próximas secciones.
7. Trabajos de campo.
Se incluyen en este apartado las labores de recogida de da-
tos, selección y adiestramiento de agentes y supervisores, redac-
ción de manuales e instrucciones, etc.; es decir, abarca todos
aquellos trabajos que están relacionados de forma directa con
la recogida de la información.
8. Tabulación.
El proceso de tabulación incluye la elaboración de tablas,
informatización y depuración de datos, etc.
9. Evaluación de resultados.
Se incluyen en esta etapa el análisis e interpretación de re-
sultados, análisis de costes, discrepancias entre el diseño teórico
y su aplicación, etc.
El tiempo em- un colectivo, se observa una parte de ellos; pero por otro la-
pleado en realizar do, también existe un ahorro importante en tiempo, y esto lle-
una encuesta cen- va consigo un coste de oportunidad como consecuencia de la
sal a la población anticipación en la toma de decisiones sobre las informaciones
española, desde muestrales.
su diseño hasta 3. Calidad. Toda encuesta conduce a una serie de errores y no
la publicación de solamente de muestreo, sino también de observación. El realizar
resultados, fácil- una encuesta muestral tiene la ventaja sobre el censo de que se
mente supera los observan menos elementos, y por tanto se puede cuidar más la
2-3 años. precisión en la observación o medida de cada unidad (este punto
se analizará con más detalle en la última sección de este tema).
Pasamos ya a describir las principales técnicas de muestreo en pobla-
ciones finitas.
Definición. Llamamos método de muestreo o simplemente muestreo,
al procedimiento mediante el cual se obtiene una o más muestras.
Los métodos de muestreo se clasifican en probabilísticos y no pro-
babilísticos, según que a cada muestra posible se le pueda asignar una
probabilidad de selección o no.
Los métodos de muestreo probabilísticos más importantes son:
1. Muestreo aleatorio con reposición.
Este método de muestreo consiste en observar una unidad y
reponerla a la población; de esta forma, las extracciones son in-
dependientes y todas las unidades tienen la misma probabilidad
de salir elegidas, así como también la tienen todas las muestras
posibles.
Esta técnica de selección coincide con el muestreo en pobla-
ciones infinitas, pues una unidad puede aparecer sucesivas veces
en la muestra.
2. Muestreo aleatorio sin reposición. Con esta técnica de
muestreo, cada unidad observada no se devuelve a la mues-
tra, con lo que cada unidad sólo puede aparecer una vez en la
muestra. Todas las unidades tienen la misma probabilidad de
ser elegidas, pero ésta no es independiente del orden de las ex-
tracciones, sino que dependerá de las unidades que previamente
hayan sido elegidas.
3. Muestreo estratificado. Cuando la población se divide en es-
tratos, el método de muestreo que selecciona de cada uno un
número aleatorio de unidades para formar parte de la muestra,
se denomina muestreo estratificado. Se denomina afijación a la
distribución que se hace de la muestra sobre los diferentes estra-
tos. Las afijaciones pueden ser de diferentes tipos, normalmente
18.3. MéTODOS DE SELECCIóN 143
respectivamente.
Si la característica a observar es cualitativa, la proporción y el total
de clase poblacional , de la ocurrencia de una determinada modalidad
A, viene dada por:
N
� N
�
Ai
p= ,y A= Ai
i=1
N i=1
� � � �
p 0 q0 p 0 q0
(18.4.12) p 0 − kα , p 0 + kα
n n
� � � �
p 0 q0 p 0 q0
(18.4.13) A0 − kα N , A 0 + kα N
n n
ii Muestreo sin reemplazamiento:
� � � �
n Ŝ n Ŝ
(18.4.14) X̄0 − kα 1 − √ , X̄0 + kα 1 − √
N n N n
148 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS
� � � �
n Ŝ n Ŝ
(18.4.15) X 0 − kα N 1 − √ , X 0 + kα N 1− √
N n N n
� �� �� �
n � p 0 q0 n � p 0 q0
(18.4.16) p 0 − kα 1− , p 0 + kα 1−
N n N n
� �� �� �
n � p 0 q0 n � p 0 q0
(18.4.17) A0 − kα N 1− , A 0 + kα N 1−
N n N n
Son las regiones de no rechazo de:
H0 : X̄ = X̄0 , H0 : X = X0 , H0 : p = p0 y H0 : A = A0
respectivamente, frente a las alternativas de ser distintos, con
un nivel de significación α.
En todos los casos, el coeficiente kα se determina de la forma
indicada en la ecuación 18.4.1.
2. Regiones de rechazo para contrastar si el parámetro pobla-
cional es menor o igual a uno determinado (X̄0 , X0 , p0 , A0 ), a
un nivel de significación α.
i Muestreo con reemplazamiento:
� �
Ŝ
(18.4.18) X̄0 + kα √ , +∞
n
� �
Ŝ
(18.4.19) X0 + kα N √ , +∞
n
� � �
p 0 q0
(18.4.20) p 0 + kα , +∞
n
� � �
p 0 q0
(18.4.21) A0 + kα N , +∞
n
ii Muestreo sin reemplazamiento:
� � �
n Ŝ
(18.4.22) X̄0 + kα 1 − √ , +∞
N n
� � �
n Ŝ
(18.4.23) X0 + kα N 1 − √ , +∞
N n
18.5. TAMAñO DE LA MUESTRA Y ERROR DE MUESTREO 149
� �� �
n � p 0 q0
(18.4.24) p 0 + kα 1− , +∞
N n
� �� �
n � p 0 q0
(18.4.25) A0 + k α N 1− , +∞
N n
Son, respectivamente, las regiones de rechazo para contrastar
las hipótesis nulas:
H0 : X̄ ≤ X̄0 , H0 : X ≤ X0 , H0 : p ≤ p0 y H0 : A ≤ A0
frente a las hipótesis alternativas:
H1 : X̄ > X̄0 , H1 : X > X0 , H1 : p > p0 y H1 : A > A0
donde fijado el nivel de significación α, el coeficiente kα se de-
termina en la tabla de la distribución t, en la intersección de la
fila correspondiente a n − 1 g.l. y la columna en que el área de
una cola coincide con α.
3. Regiones de rechazo para contrastar si el parámetro pobla-
cional es mayor a uno determinado (X̄0 , X0 , p0 , A0 ), a un nivel
de significación α, son las complementarias de las obtenidas en
el punto anterior, sustituyendo kα (que se calcula de la misma
forma), por su opuesto.
Regla de decisión: En todos los casos se reduce a calcular el valor
del parámetro en la muestra, y rechazar o no rechazar la hipótesis
según que éste pertenezca a la correspondiente región de rechazo o de
aceptación.
σ2
n = k2
e2
i Muestreo sin reposición:
La varianza del estimador es:
� �
� � N − n σ2
ˆ
V ar x̄ =
N −1 n
de donde sustituyendo se obtiene:
N k2σ2
n=
e2 (N − 1) + k 2 σ 2
2. Tamaño muestral para estimar el total
i Muestreo con reposición:
σ2
V ar (x̄) = N 2
n
152 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS
[1] Alba, U. Nieto d.: Introducción a la Estadística. Madrid : Ed. Aguilar, 1975
[2] Arnaiz Vellando, G.: Introducción a la Estadística Teórica. Valladolid : Ed.
Lex-Nova, 1978
[3] Azorín, F.: Curso de Muestreo y Aplicaciones. Madrid : Ed. Aguilar, 1972
[4] Calot, G.: Curso de Estadística Descriptiva. Madrid : Paraninfo, 1974
[5] Cochran, W.G.: Técnicas de Muestreo. México : Ed.CECSA, 1980
[6] Cramer, H.: Teoría de Probabilidades y Aplicaciones. Madrid : Ed. Aguilar,
1977
[7] Dixon, W.J. y F.J. M.: Introducción al Análisis Estadístico. México : Ed.
Paraninfo, 1965
[8] Downie, N.M. y R.W. H.: Métodos Estadísticos Aplicados. Madrid : Ed. del
Castillo, 1971
[9] E. García España, Sanchez-Crespo J.: Estadística Descriptiva. Madrid : Ed.
INE, 1961
[10] García Barbancho, A.: Estadística Elemental Moderna. Barcelona : Ed.
Ariel, 1973
[11] Guenther, W.C.: Introducción a la Inferencia Estadística. Madrid : Ed. del
Castillo, 1968
[12] Gutierrez Cabría, S.: Bioestadística. Madrid : Ed. Tebar Flores, 1978
[13] Hoel, P.: Introducción a la Estadística Matemática. Barcelona : Ed. Ariel,
1976
[14] Hoel, P.: Estadística Elemental. México : Ed. Continental, 1979
[15] Kreyszig, E.: Introducción a la Estadística Matemática. Principios y Métodos.
México : Ed. Limusa, 1983
[16] Lopez Cachero, M.: Fundamentos y Métodos de Estadística. Madrid : Ed.
Pirámide, 1978
[17] Martín-Guzman, M.P. y F.J. Martín P.: Curso Básico de Estadística Econó-
mica. Madrid : Ed. AC, 1985
[18] Meyer, P.: Probabilidades y Aplicaciones Estadísticas. México : Ed. Fondo
Educativo Interamericano, 1973
[19] Mills, R.L.: Estadística para Economía y Administración. Bogotá : Ed. Mc.
Graw-Hill, 1980
[20] Mood, A.M. y F.A. G.: Introducción a la Teoría de la Estadística. Madrid :
Ed. Aguilar, 1978
[21] Pulido San Román, A.: Estadística y Técnicas de Investigación Social. Ma-
drid : Ed. Pirámide, 1976
[22] Rios, S.: Métodos Estadísticos. Madrid : Ed. del Castillo, 1975
[23] Sanchez-Crespo, J.L.: Curso Intensivo de Muestreo en Poblaciones Finitas.
Madrid : Ed. INE, 1980
157
158 Bibliografía
A de asimetría de Pearson, 33
acuracidad, 138 γ1 de Fisher, 33
afijación, 142 γ2 de Fisher, 33
de mínima varianza, 143 coeficiente de
proporcional, 143 correlación lineal, 40, 94
uniforme, 143 determinación, 46
afijación óptima, 143 diversificación, 57
ajuste especialización de una zona, 57
exponencial, 43 localización zonal, 57
hiperbólico, 43 regresión, 48
lineal, 42 variación de Pearson, 29
logístico, 43 componente
parabólico, 43 cíclica, 62
potencial, 42 estacional, 62
alisados, 61 extraestacional, 62
amplitud del intervalo, 14 tendencia, 60
análisis condición de independencia, 39, 70,
longitudinal, 51 93
transversal, 51 confianza un intervalo, 120
apuntamiento, 33 conglomerados, 140
asimetría, 32 covarianza, 39, 93
negativa o a la izquierda, 32 cuantil, 24
positiva o a la derecha, 32 cuartil, 25
atributo, 12 cuasi-varianza, 117, 145
cuestionario, 139
B curtosis, 33
binomial, variable o modelo, 81 curva de concentración, 34
C D
cálculo de probabilidades, 69 decil, 25
caracteres, 12 dependencia
casos estadística, 39
favorables, 68 funcional, 38
posibles, 68 desestacionalización, 62
centil, 25 desigualdad de Chebyshev, 97
cociente de localización zonal, 57 desviación absoluta media, 28
coeficiente respecto a
159
160 Índice alfabético
conjunta, 89 de contingencia, 36
fecuencialista, 68 de correlación, 36
inducida, 74 de números aleatorios, 105
objetiva, 68 estadística, 14
subjetiva, 68 tabulación, 14
probabilidades tamaño
a posteriori o finales, 71 muestral, 12
iniciales o apriori, 70 poblacional, 12
proporción tendencia, 60
muestral, 145 teorema
poblacional, 144 central del límite, 99
de Bayes, 71
R de la probabilidad total, 71
recorrido, 27 total
recorrido intercuartílico, 27 muestral, 145
regresión mínimo cuadrática, 47 poblacional, 144
relación causal, 41 total de clase
repercusión muestral, 145
de la variable Xi , 56 poblacional, 144
porcentual, 56
U
S unidades
serie elementales, 138
cronológica, 59 primarias, 138
histórica, 59
temporal, 59 V
tipo flujo, 59 valor
tipo nivel, 59 esperado, 77
sesgo, 116, 138 modal, 22
sesgo del entrevistador, 155 valores, 12
sistema completo de sucesos, 70 observados, 138
situación verdaderos, 138
actual, 51 variable
base, 51 absolutamente continua, 75
subpoblación, 12 aleatoria, 73
suceso, 68 aleatoria bidimensional, 89
complementario, 69 aleatoria discreta, 74
diferencia, 69 estadística continua, 12
elemental, 68 estadística discreta, 12
intersección, 69 independiente, 39
seguro, 69 tipificada, 29
unión, 69 variable estadística
sucesos bidimensional, 35
incompatibles, 69 variables estadísticas, 12
sucesos disjuntos, 69 variación del índice general, 56
variaciones
T cíclicas, 60
t de Student, 108 estacionales, 60
tabla varianza, 27, 78
Índice alfabético 163
condicionada, 38
explicada, 45
marginal, 38
residual, 46
Z
zona
de aceptación, 128
de rechazo, 128