Nociones Básicas de Estadística

Nociones Básicas de Estadística
Rigoberto Pérez (rigo@uniovi.es)

Dpto de Economía Aplicada. Universidad
de Oviedo
A Cova, yo estaba muy apurado con esto cuando ella llegaba
Depósito Legar: O/226-86

Edición 1986
Revisión 2010, V2.0.1
Índice general
Presentación 7
Parte 1. Estadística Descriptiva 9

Capítulo 1. Introducción 11
1.1. Estadística Descriptiva e Inferencia Estadística 11
1.2. Conceptos Básicos 11
1.3. Frecuencias absolutas, relativas y acumuladas. Tabulación 12
1.4. Distribuciones agrupadas y no agrupadas 14
1.5. Representaciones gráficas 15
Capítulo 2. Medidas de Posición 21
2.1. Media, mediana y moda 21
2.2. Mediana 22
2.3. Moda 22
2.4. Media geométrica y media armónica 23
2.5. Características y aplicaciones 23
2.6. Medidas de posición. Cuantiles 24
Capítulo 3. Medidas de dispersión 27
3.1. Medidas de dispersión absolutas 27
3.2. Medidas de dispersión relativas 29
3.3. Variable tipificada 29
3.4. ANEXO: Momentos de una distribución 29
Capítulo 4. Medidas de forma y concentración 31
4.1. Introducción a la distribución normal 31
4.2. Simetría y curtosis. Coeficientes 32
4.3. Índices de concentración 33
Capítulo 5. Dos caracteres y sus posibles relaciones 35
5.1. Distribuciones bidimensionales: tabulación y representación 35
5.2. Distribuciones marginales y condicionadas 36
5.3. Independencia estadística. Tipos de dependencia 38
5.4. Covarianza y coeficiente de correlación lineal 39
5.5. ANEXO: Momentos bidimensionales 40
3
4 Índice general
Capítulo 6. Ajuste 41
6.1. Ajuste: concepto y significado 41
6.2. El método de los mínimos cuadrados 41
6.3. Algunas funciones ajustadas por mínimos cuadrados 42
Capítulo 7. Regresión y correlación 45
7.1. Correlación: concepto y significado 45
7.2. Varianza residual y coeficiente de determinación 46
7.3. Regresión. Línea de regresión 47
7.4. Regresión lineal: coeficiente de regresión 48
7.5. Introducción a la predicción (I) 48
Capítulo 8. Números índices 51
8.1. Concepto de número índice 51
8.2. Propiedades exigibles a los indicadores 52
8.3. Índices sintéticos: ponderados y no ponderados 52
8.4. Cambio de base 55
8.5. Participación y repercusión 55
8.6. ANEXO: Índices espaciales 56
Capítulo 9. Series Temporales 59
9.1. Planteamiento general 59
9.2. Análisis clásico 60
9.3. Métodos para el cálculo de la tendencia 60
9.4. Índices de variación estacional. Desestacionalización 62
9.5. Variaciones cíclicas 62
9.6. Introducción a la predicción (II) 63
Parte 2. Cálculo de probabilidades 65

Capítulo 10. Introducción a la probabilidad 67
10.1. Definiciones de probabilidad 67
10.2. Definición axiomática de la probabilidad 69
10.3. Propiedades básicas de la probabilidad 69
10.4. Probabilidad condicionada y sucesos independientes 70
10.5. Teorema de la probabilidad Total y teorema de Bayes 70
Capítulo 11. Variables aleatorias 73
11.1. Variables aleatorias. Conceptos generales 73
11.2. Variables discretas. Función de probabilidad 74
11.3. Variables continuas. Función de densidad 74
11.4. Función de distribución. Propiedades 76
11.5. Esperanza matemática. Propiedades 77
11.6. Varianza. Propiedades 78
Índice general 5
11.7. ANEXO: Momentos de una distribución 79

Capítulo 12. Distribuciones notables 81
12.1. Distribución binomial 81
12.2. Distribución de Poisson 83
12.3. Distribución normal 84
Capítulo 13. Variables aleatorias bidimensionales 89
13.1. Variables aleatorias bidimensionales. Conceptos generales 89
13.2. Distribuciones marginales y condicionadas 90
13.3. Variables aleatorias independientes 92
13.4. Momentos bidimensionales 93
13.5. Propiedades relacionadas con variables independientes 94
Capítulo 14. Teoremas límites 97
14.1. Desigualdad de Chebyshev 97
14.2. Ley de los grandes números 97
14.3. Teorema central del límite 99
Parte 3. Inferencia Estadística 101

Introducción 102
Capítulo 15. Teoría de muestras y distribuciones muestrales 103
15.1. Teoría de muestras 103
15.2. Selección de muestras y números aleatorio 105
15.3. Estadísticos y estimaciones 106
15.4. Distribuciones utilizadas en pruebas 107
15.5. Distribución t de Student 108
15.6. Algunas distribuciones asociadas al proceso de muestreo 110
Capítulo 16. Estimación 115
16.1. Estimadores. Propiedades 115
16.2. Métodos para la obtención de estimadores 118
16.3. Estimación por intervalos 120
Capítulo 17. Contraste de hipótesis 127
17.1. Planteamiento general 127
17.2. Algunos test importantes 128
Capítulo 18. Diseño de encuestas. Muestreo en poblaciones finitas137
18.1. Conceptos básicos 137
18.2. Diseño de una encuesta 138
18.3. Métodos de selección 141
18.4. Métodos de estimación y contrastes 144
18.5. Tamaño de la muestra y error de muestreo 149
6 Índice general
18.6. Errores ajenos al muestreo 153

Bibliografía 157
Índice alfabético 159
PRESENTACIóN 7
Presentación
Nociones Básicas de Estadística es un manual escrito en el invierno
de 1985-86 y publicado en Marzo de 1986. Este libro nació con el ob-
jetivo de elaborar un material que presentase las principales técnicas
estadísticas de una forma introductoria pero rigurosa; por eso práctica-
mente no incluye demostraciones, pero presenta con rigor los conceptos
y resultados relativos a los principales métodos estadísticos.
En el momento de su publicación inicial, este libro pretendía servir
de base para distintos cursos de Estadística de enseñanza universitaria
no reglada impartidos a personal de empresas, bancos, instituciones,
centros sanitarios, etc., interesados en el conocimiento de las técnicas
estadísticas. La situación ha cambiado y este tipo de cursos apenas
existen en la actualidad, o en todo caso son mucho más específicos,
vinculados generalmente a alguna aplicación informática.
Al analizar los motivos de este cambio en las necesidades de for-
mación, supongo que se debe en gran medida al avance de las TIC y
las aplicaciones informáticas de Estadística. En la actualidad, cualquier
cuaderno de cálculo dispone de un amplio conjunto de herramientas de
análisis estadístico, accesible desde cualquier ordenador y con software
libre o gratuito, que permite elaborar un análisis estadístico avanza-
do. Sin embargo, no creo que estos avances garanticen la interpreta-
ción correcta de los resultados, ya que ésta se encuentra vinculada a
la comprensión de los conceptos y las técnicas. En definitiva, tengo la
impresión de que disponemos de volúmenes de información que antes
resultaban impensables y de tecnologías que facilitan enormemente su
tratamiento, pero en ocasiones nos estamos olvidando del razonamiento
estadístico.
Este libro nació con unos objetivos claros y ahora, con la pers-
pectiva que dan 25 años, me encuentro muy satisfecho del enfoque, la
estructura, el rigor, etc. Se concibió como un material de trabajo que
servía de hilo conductor al profesor o de referencia al alumno, pero que
lógicamente debía ser complementado con otros materiales (ya que no
contiene ejemplos, demostraciones, etc.) y que podía ser utilizado de
forma muy flexible (en cursos de 40 horas, distintos móculos de 20 h. ,
....).
Contemplado desde el año 2010, en un contexto de recursos muy
superiores y niveles de exigencia a menudo más reducidos, también su-
pone para mí una satisfacción haber sido capaz de elaborar este manual
con una vieja máquina de escribir Olivetti y de recoger los principales
contenidos de estadística descriptiva e inferencial con un rigor que hoy
a veces sacrificamos.
8 Índice general
La publicación de este texto se llevó a cabo en el Servicio de Publi-

caciones de la Universidad de Oviedo y el manual nunca generó dere-
chos económicos para el autor. Hace años que el texto estaba agotado
y ahora he decidido reescribirlo, en un formato más actual (Latex ->
PDF) pero manteniendo el texto y el espíritu de la versión de 1986. Se
han cambiado los gráficos, alguna notación, se han incorporado algu-
nas notas laterales (que en muchos casos ya iban incluidas en el texto
original), y pocos cambios más.
Lógicamente si hoy hiciese un nuevo manual los cambios serían más
amplios: introduciría ilustraciones, supuestos desarrollados con alguna
aplicación informática, etc. pero ya no sería Nociones Básicas de Es-
tadística. Por eso en esta ocasión he decidido serle fiel y mantener el
espíritu que tenía hace 25 años.
El libro se publica en formato PDF y está disponible en la Red para
que cualquier persona pueda descargalo de forma libre y gratuita.
Mayo de 2010.
Parte 1
Estadística Descriptiva
Capítulo 1
Introducción
En este primer tema, trataremos de delimitar los campos de la Es-

tadística Descriptiva y de la Inferencia Estadística. Se definen los con-
ceptos básicos que se utilizan en Estadística Descriptiva y se estudian
los primeros pasos en el tratamiento de la información: Tabulación y
representaciones gráficas.
1.1. Estadística Descriptiva e Inferencia Estadística

Aunque existen múltiples definiciones de Estadística se hace difí-
cil encontrar una que abarque todos los campos de estudio que en la
actualidad conforman esta ciencia, por lo que más que ocuparnos de
dar una definición de Estadística nos proponemos su contenido y sus
objetivos.
Podríamos decir que la Estadística estudia un conjunto de métodos
(métodos estadísticos) en relación con la obtención y tratamiento de
la información. Los fines que persigue, principalmente son: la toma de
decisiones, la contrastación de hipótesis, la estimación de parámetros
y la predicción de resultados.
Según que las conclusiones obtenidas traten de extrapolarse o no a
colectivos mayores, podemos distinguir:
Definición. Estadística Descriptiva. Llamamos así a aquella parte de
la estadística que se encarga de describir y analizar un conjunto de
datos con el objetivo de que la información obtenida sea válida sólo
para el conjunto observado.
Por el contrario:
Definición. Inferencia estadística (o Estadística Inductiva). Llama-
mos así a aquella parte de la estadística que tiene como objetivo extra-
polar las conclusiones obtenidas a conjuntos más numerosos.
1.2. Conceptos Básicos

⇒ Llamamos población al conjunto de personas o cosas a las cuales
se refiere una investigación estadística.
11
12 1. INTRODUCCIóN
⇒ Cada una de las personas o cosas que componen la población

se denominan elementos o individuos
⇒ Al número de elementos que forman la población se lr denomina
tamaño poblacional .
⇒ Llamamos muestra, a un subconjunto de elementos de la po-
blación de forma que este subconjunto representa a todo el co-
lectivo.
⇒ El número de individuos que componen la muestra se denomina
tamaño muestral .
⇒ Los elementos de la población presentan ciertas propiedades,
características o cualidades que denominamos caracteres.
⇒ Cuando se selecciona una parte de la población con arreglo a
unos caracteres comunes y determinados, que no presentan los
restantes individuos de la población, se denomina subpoblación.
Los atributos se
⇒ Los caracteres observados en los elementos de una población
denota por letras
pueden ser cualitativos o cuantitativos.
A, B, C, · · · , y sus
⇒ Cuándo la característica observada es cualitativa, se llama atri-
modalidades por
buto. Las distintas formas de representación de los atributos, se
Ai , B i , C i , · · ·
denominan modalidades
Variables ⇒ Cuando los caracteres observados son medibles, esto es, pueden
X, Y, Z, · · · ,y va- cuantificarse numéricamente, se denominan variables estadísti-
lores xi , yi , zi , · · · . cas.
⇒ Las representaciones de las variables se obtienen mediante va-
lores
⇒ Según sea el número de valores que tome la variable podemos
clasificarla en discreta y continua.
⇒ Decimos que una variable estadística es discreta, cuando el nú-
mero de valores diferentes que puede tomar es finito o infinito
numerable.
⇒ Decimos que una variable estadística es continua cuando puede
tomar un número infinito (no numerable) de valores.
1.3. Frecuencias absolutas, relativas y acumuladas.

Tabulación
⇒ Consideremos una población E, integrada por N elementos y
sobre ella observamos una variable estadística X que toma un
conjunto de valores diferentes x1 , x2 , · · · , xk , algunos de los cua-
les pueden aparecer repetidos un determinado número de veces.
⇒ Llamamos frecuencia absoluta del valor xi , que denotamos por
ni , al número de veces que este valor se repite en la población.
1.3. FRECUENCIAS ABSOLUTAS, RELATIVAS Y ACUMULADAS. TABULACIóN
13
⇒ De esta forma a la variable estadística X se le asocia un sistema

de frecuencias absolutas n1 , n2 , · · · , nk .
⇒ Así podemos formar un cuadro compuesto de dos columnas,
una con los distintos valores que toma la variable y otra, con
las frecuencias con que toma estos valores, el cual describe el
comportamiento de la variable sobre la población.
xi ni
x1 n1
x2 n2
.. ..
. .
xk nk
⇒ Denominamos frecuencia relativa del valor xi , que designamos
por fi , a la proporción de individuos sobre los cuales la variable
toma este valor:
ni
fi =
N
⇒ Llamamos frecuencia absoluta acumulada del valor xi , que de-
notamos por Ni , al número de veces con que se repite este valor
y todos los anteriores a él (supuesto que éstos están ordenados
en forma creciente).
i
�
Ni = n 1 + n 2 + · · · + n i = nj
j=1
⇒ Llamamos frecuencia relativa acumulada del valor xi , que de-

signamos por Fi , a la proporción que su frecuencia absoluta
acumulada representa sobre el total de elementos que compo-
nen la población:
Ni
Fi =
N
⇒ La frecuencia relativa acumulada también puede expresarse co-
mo la acumulación de frecuencias relativas de un valor y los
anteriores a él.
Se tiene:
k
� k
� i
�
ni = N ; fi = 1 ; F i = f j ; Nk = N ; F k = 1
i=1 i=1 j=1
⇒ Conocido un sistema de frecuencias pueden obtenerse los restan-

tes; por tanto, la tabla anterior puede ampliarse con las nuevas
columnas:
14 1. INTRODUCCIóN
x i n i f i Ni F i
x 1 n 1 f 1 N1 F 1
x 2 n 2 f 2 N2 F 2
.. . . . . . . .
. . . . ..
x k n k f k Nk F k
⇒ Un cuadro formado por la columna de valores de la variable
y otra columna cualquiera de frecuencias, se le denomina tabla
estadística.
⇒ Al proceso de elaboración de tablas estadísticas se denomina
tabulación
Los tamaños ’pe-
queño’ o ’grande’ 1.4. Distribuciones agrupadas y no agrupadas
lo interpretamos A una tabla estadística del tipo anterior, generalmente se le deno-
en el sentido de mina distribución de frecuencias o simplemente distribución, que de
manejabilidad de forma genérica se representa por (xi , ni ) .
los datos. Cuando el número de valores que toma la variable es ’pequeño’, las
tablas anteriores son útiles para presentar datos. A estas distribuciones
se les denomina no agrupadas.
Por el contrario si el número de valores distintos que toma la varia-
ble es ’grande’, tiene escasa funcionalidad una tabla de este tipo.
Sería más razonable agrupar estos datos con sus correspondientes
frecuencias en intervalos, de forma que el número de éstos sea más
manejable.
Estos intervalos se denotan de forma genérica por (Li−1 , Li ), donde
Li−1 y Li son los límites del intervalo y se denominan límite o extremo
inferior y superior , respectivamente.
Llamamos amplitud del intervalo, que denotamos por ai , a la longi-
tud de este intervalo o diferencia entre el extremo superior y el extremo
inferior del mismo.
Denotar por xi
la marca de clase ai = Li − Li−1
no significa que la Denominamos marca de clase al punto medio de cada intervalo o
variable tome ese clase. Generalmente denotaremos por xi la marca de clase del i-ésimo
valor. intervalo:
Li−1 + Li
xi =
2
Cuando una distribución se expresa (o viene ya dada) en intervalos,
se denomina agrupada.
Sobre estas distribuciones existen varios puntos de discusión a cerca
de los cuales no hay unos criterios unánimes, dependerán del problema
concreto que estemos estudiando:
1.5. REPRESENTACIONES GRáFICAS 15
⇒ Número e intervalos en que podemos agrupar la distribución

⇒ Amplitud constante o variable para estos intervalos
⇒ Extremos que se incluyen en cada intervalo
La frecuencia asociada al i-ésimo intervalo es la suma de las frecuencias
de los valores encuadrados en el mismo, entendiendo éstas como la
repetición de i-ésimo intervalo, que también se denota por ni .
Estas distribuciones pueden expresarse en una tabla estadística del
siguiente tipo:
Li−1 − Li x i n i f i Ni Fi
L0 − L 1 x 1 n 1 f 1 N1 F1
L1 − L 2 x 2 n 2 f 2 N2 F2
.. ... ... ... ... ..
. .
Lk−1 − Lk x k n k f k Nk Fk
La distribución de las repeticiones sobre cada intervalo admite una
doble interpretación que condicionará los métodos empleados para ob-
tener los promedios de estas distribuciones:
♦ ’Como se darán valores anteriores y posteriores a la marca de
clase, podríamos considerar que este es el único valor que to-
ma la variable en ese intervalo, repitiéndose tantas veces como
indica la frecuencia del mismo’
♦ ’Como no sabemos qué valores asume la variable sobre un in-
tervalo, podemos suponer que su frecuencia se reparte unifor-
memente sobre todos los valores del mismo’.
1.5. Representaciones gráficas

Ua representación gráfica es el esquema gráfico de una distribución
de frecuencias.
La representación gráfica es un medio que ayuda en la investigación
estadística a resumir o desglosar la información que se encuentra en su
totalidad en la tabla estadística; no obstante, el gráfico va a descubrir
una parte de esta información que quizás la distribución no nos muestre.
Las representaciones gráficas más usuales, distinguiendo para ca-
racteres cualitativos y cuantitativos son:
Caracteres cualitativos
Consideremos un atributo A que se presenta según las modalidades
A1 , · · · , Ak , con frecuencias n1 , · · · , nk .
Diagrama sectorial
16 1. INTRODUCCIóN
Consiste en dividir un círculo en tantos sectores como modalida-

des tenga el atributo, de forma que el área de cada sector sea igual o
proporcional a la frecuencia de la modalidad que represente.
Diagrama rectangular
Esta representación asigna a cada modalidad un rectángulo de mo-
do que su área sea igual o proporcional a la frecuencia de la misma.
Es una represen-
tación útil cuando
se compara un
atributo en varias
Pictogramas
poblaciones.
Consiste en un figura característica del atributo, donde su tamaño
es tal que su área o volumen sea igual o proporcional a la frecuencia
del atributo en la población a la que representa.
Caracteres cuantitativos
⇒ Distribuciones no agrupadas
Sea X una variable estadística que toma valores x1 , · · · , xk , con fre-
cuencias n1 , · · · , nk .
Diagrama de barras
Consiste en representar sobre un plano de coordenadas, en el eje
de abscisas los distintos valores de la variable y en el eje de ordenadas
la frecuencia (absoluta o relativa) con que toma esos valores; y para
hacer más visible la representación se traza el segmento que une el
punto (xi , ni ) (o (xi , fi ) ) , con su abscisa correspondiente (xi , 0). De
esta forma aparecen una serie de barras cuya suma es N (o uno según
sea el caso).
Diagrama escalonado
El gráfico que se obtiene cuando se representa sobre un plano la
función que a cada número real le asigna su frecuencia acumulada (ab-
soluta o relativa). Es cero hasta llegar al primer valor de la variable
y N (o uno) a partir del último valor, el número de saltos es igual al
18 1. INTRODUCCIóN
número de valores diferentes de la variable y la longitud de cada salto

coincide con la frecuencia del punto correspondiente.
En el gráfico de arriba tenemos un diagrama escalonado de frecuen-

cias absolutas y en el de abajo con frecuencias relativas.
⇒ Distribuciones agrupadas
Sea X una variable estadística cuyos valores se agrupan en intervalos:L0 −

L1 , L1 − L2 , · · · , Lk−1 − Lk , que se repiten n1 , n2 , · · · , nk veces, res-
pectivamente.
Histograma
Es una generalización del diagrama de barras. Se representa en el
eje de abscisas los intervalos en los que se agrupa el conjunto de valores
de la variable, y sobre ellos se construye un rectángulo de forma que
su área sea igual o proporcional a la frecuencia con que se repite ese
intervalo.
Polígono de frecuencias
Es la representación usual en distribuciones agrupadas correspon-
diente a frecuencias acumuladas; se basa en el supuesto de que las
repeticiones de cada intervalo se reparten de forma uniforme sobre su
recorrido, y de esta forma se considera que la frecuencia acumulada del
extremo inferior de un intervalo coincide con la del extremo superior
del intervalo precedente y la frecuencia acumulada de un intervalo se
alcanza sólo en el límite superior del mismo. Esta representación con-
siste en construir la poligonal resultante de unir mediante segmentos la
frecuencia acumulada del extremo inferior con la del superior de cada
intervalo, teniendo en cuenta además que la frecuencia acumulada de
todo valor anterior a L0 es nula y para valores superiores a Lk alcanza
al valor N (o uno si se refiere a frecuencias relativas).
Hemos de hacer notar que podría utilizarse cualquier gráfico que nos
permitiera obtener más información sobre el problema tratado, con tal
de que sea fiel a esa realidad, que sea una plasmación de la misma.
Capítulo 2
Medidas de Posición
La información estadística contenida en una tabla suele ser poco

manejable, aunque se encuentre agrupada en intervalos. Trataremos en
este tema de elegir representantes de esta distribución que sinteticen la
información contenida en la misma y a estos representantes se les de-
nomina promedios, medidas de centralización o medidas de tendencia.
2.1. Media, mediana y moda

Consideremos una variable estadística X, que toma un conjunto de
valores x1 , x2 , · · · , xk , con frecuencias relativas f1 , f2 , · · · , fk .
Definición. Llamamos media aritmética de la variable estadística que
denotamos por x̄, al valor de la expresión:
k
�
(2.1.1) x̄ = xi f i
i=1
Cuando la distribución es agrupada, tomamos los xi como las mar-

cas de clase.
Propiedades:
1. Si a cada valor de la variable se le suma una constante c, la
media también aparece aumentada en esa constante:
x + c = x̄ + c
2. Si a cada valor de la variable se le multiplica por una constante
c, la media varía en la misma proporción: cx = cx̄.
3. Si tenemos h subconjuntos disjuntos de �
�� un conjunto de valores
h
con tamaños N1 , · · · , Nh j=1 Nj = N , y medias x̄1 , · · · , x̄h ,
la media del conjunto total se relaciona con la media de los
subconjuntos mediante la expresión:
N1 x̄1 + · · · + Nh x̄h
(2.1.2) x̄ =
N
21
22 2. MEDIDAS DE POSICIóN
4. La suma de las desviaciones de los valores de la variable respecto

a su media es cero:
k
�
(2.1.3) (xi − x̄) ni = 0
i=1
5. La media de las desviaciones cuadráticas de los valores de la

variable respecto a una constante cualquiera p (o un promedio)
se hace mínima cuando p = x̄:
k
� k
�
2
(2.1.4) mı́n (xi − p) ni = (xi − x̄)2 ni
p
i=1 i=1
La mediana es 2.2. Mediana

un número y no Definición. Llamamos mediana, que denotamos por M e, aquel núme-
tiene porqué ser ro que divide la distribución en dos partes iguales, suponiendo que los
un valor de la datos están ordenados en forma creciente o decreciente.
variable.
Si la distribución no está agrupada, la mediana viene dada por
el valor central si N es impar, o por la semisuma de los dos valores
centrales, si N es par.
Cuando la distribución viene dada por intervalos, la clase mediana
se localiza como en el caso anterior (intervalo i con frecuencia acumu-
lada Ni ≥ N2 ), y conocida ésta, el valor mediano viene dado por:
N
− Ni−1
(2.2.1) M e = Li−1 + 2
ai
En una distribu-
ni
ción puede haber
más de una mo- 2.3. Moda
da, en cuyo caso Definición. Llamamos moda o valor modal de una distribución, que
se denominan denotamos por M o , al valor de la variable que más veces se repite.
multimodales
En distribuciones no agrupadas, su �cálculo

� es inmediato, ya que
será el valor correspondiente a la altura ai más alta.
ni
Cuando la distribución es agrupada, su cálculo puede reducirse al

anterior si suponemos que la repetición del intervalo se concentra en la
marca de clase. Si suponemos que el reparto de la frecuencia se hace
uniforme a lo largo de todo el intervalo modal (i-esima clase), el valor
modal viene dado por:
2.5. CARACTERíSTICAS Y APLICACIONES 23
ni+1
ai+1
(2.3.1) M o = Li−1 + ni−1 ni+1 ai
ai−1
+ ai+1
2.4. Media geométrica y media armónica

No tiene sentido
En determinadas ocasiones, la media, la mediana o la moda no re- calcular G cuando
presentan bien a una distribución, por lo cual se introducen dos nuevos simultáneamente
promedios: media geométrica y media armónica. se tienen valo-
res positivos y
Definición. Dada una distribución de frecuencias llamamos media geo-
negativos.
métrica, que designamos por G, al valor de la expresión:
�
k � k
� ��
(2.4.1) G = xf11 · · · xfkk = xi = �
fi N
xni i No se puede cal-
i=1 i=1 cular H cuando
Definición. Llamamos media armónica, que denotamos por H, al va- algún valor es
lor de la expresión: nulo.
N
(2.4.2) H= n1 nk
x1
+ ··· + xk
Nota 1. Se tiene: H ≤ G ≤ x̄.
2.5. Características y aplicaciones

Como ya se citó en la introducción del tema, la idea de promedio
aparece ligada a la de sintentizador de la información o representante
de un conjunto de datos.
Con esta finalidad hemos definido distintas medidas: media aritmé-
tica, mediana, moda, ...; lo que nos indica que no existe una que sea
idónea en todas las situaciones.
Cada una de ellas presenta ventajas e inconvenientes que harán
aconsejable o no su cálculo según el tipo de problema a resolver.
Aunque desarrollaremos un estudio más riguroso sobre la represen-
tatividad de los diferentes promedios en el tema siguiente, señalamos
a continuación algunas características y aplicaciones de las medidas
definidas:
⇒ Media. Es manejable y utiliza todas las observaciones; sin em-
bargo, es sensible a fluctuaciones de valores altos de la variable.
24 2. MEDIDAS DE POSICIóN
• Suele ser un promedio útil cuando la variable toma un con-

junto bastante uniforme de valores, siempre que no haya
grandes desviaciones en los mayores.
⇒ Mediana. Es una medida muy estable, pero presenta el incon-
veniente de que no utiliza toda la información disponible.
• Su aplicación es recomendable sobre todo cuando los datos
son muy irregulares.
⇒ Moda. Presenta las mismas ventajas e inconvenientes que la
mediana.
• Se aplica cuando algún valor absorbe la mayor parte de las
frecuencias.
⇒ Media armónica. Su interpretación no es tan clara como las
anteriores. Tiene la ventaja de utilizar toda la información que
suministra la variable pero, por contra, es muy sensible a valores
bajos de ésta y no se puede aplicar cuando algún valor de la
variable es nulo.
• Una de sus principales aplicaciones es el cálculo del rendi-
miento medio.
⇒ Media geométrica. Es un promedio que se ajusta muy bien
cuando la variable tiene carácter acumulativo.
• Una de las aplicaciones típicas es para el cálculo de tasas
acumulativas, por ejemplo crecimiento medio de una varia-
ble en los cinco últimos años.
• Como ya se dijo, no tiene sentido cuando algún valor es nulo
o cuando simultáneamente hay valores positivos y negati-
vos.
2.6. Medidas de posición. Cuantiles

Las medidas anteriores tienen la característica común de indicarnos
el centro de la distribución.
Ahora estudiaremos otro tipo de medidas que nos indican la posi-
ción en que se encuadran ciertas partes de la distribución.
La mediana divide a la población en dos partes iguales, podría-
mos preguntarnos ¿qué valores dividen a la población en cuatro partes
iguales?, ¿y los que la dividen en diez?, ... .
Las medidas que nos indican estas posiciones se denominan, de
forma genérica cuantiles, que como casos particulares incluye cuartiles,
deciles, centiles, mililes, ..., según que dividan a la población en cuatro,
diez, cien, mil, ..., partes.
2.6. MEDIDAS DE POSICIóN. CUANTILES 25
⇒ Así, el cuartil de orden r, que designamos por Qr , será el número

que divide a la población en dos partes, dejando a su izquierda
las r cuartas partes.
⇒ El decil de orden r, que denotamos por Dr , será el número que
divide a la población en dos partes, dejando a su izquierda las
r décimas partes.
⇒ Llamamos centil de orden r, que designamos por Cr , aquél nú-
mero que divide a la distribución en dos partes y deja a su
izquierda las r centésimas partes.
Su cálculo es similar al que se emplea para obtener el valor mediano,
y las expresiones utilizadas cuando las distribuciones están agrupadas,
son:
rN
− Ni−1
(2.6.1) Qr = Li−1 + 4
ai
ni
rN
− Ni−1
(2.6.2) Dr = Li−1 + 10
ai
ni
rN
− Ni−1
(2.6.3) Cr = Li−1 + 100
ai
ni
siendo en cada caso, el i-ésimo intervalo donde se encuadra la posición
del correspondiente cuantil de orden r.
Capítulo 3
Medidas de dispersión
En el tema anterior se han definido unas medidas sintetizadoras de

la información global recogida en una tabla estadística, a la cual trata
de representar.
En este tema, abordamos el problema de medir la representatividad
del promedio elegido. Esta representatividad viene indicada por las
medidas de dispersión.
3.1. Medidas de dispersión absolutas

Un promedio representará tanto mejor a una distribución cuanto
más próximos estén a él los valores de la variable. A este sentido de la
proximidad y/o de la separabilidad de valores, es a lo que se denomina
dispersión.
Las medidas de dispersión absolutas nos dan una idea de la sepa-
ración de los valores de la variable pero, en general, no nos permiten
comparar la dispersión de dos distribuciones puesto que dependerá en
gran medida del tipo de valores que tome la variable.
Las medidas de dispersión absoluta más utilizadas son: recorrido,
recorrido intercuartílico, varianza, desviación típica y desviación abso-
luta media respecto a un promedio.
Definición. Llamamos recorrido o rango, que designamos por R, a la
diferencia entre el mayor y el menor de los valores de la variable:
(3.1.1) R = máx xi − mı́n xi

Definición. Llamamos recorrido intercuartílico, que denotamos por
RI , a la diferencia entre el tercero y el primero de los cuartiles de la
distribución:
(3.1.2) RI = Q 3 − Q 1
Definición. Llamamos varianza, que denotamos por S 2 , a la media de
las desviaciones cuadráticas de los valores de la variable respecto a la
media aritmética.
27
28 3. MEDIDAS DE DISPERSIóN
k
�
(3.1.3) 2
S = (xi − x̄)2 fi
i=1
Nota 2. Cuando se trabaja con más de una variable, las varianzas se

denotan por SX
2
, SY2 , · · · , para indicar a qué variable se refieren.
Propiedades:
1. S 2 es no negativa
2. Si a cada valor de la variable se le suma una constante, la va-
rianza no varía: SX+c
2
= SX2
3. Si la variable se multiplica por una constante, la varianza apare-

ce multiplicada por el cuadrado de esa constante: ScX 2
= c 2 SX
2
.
4. La varianza de una distribución puede expresarse como:
k
�
2
S = x2i fi − x̄2
i=1
Definición. Llamamos desviación típica o desviación estándar , que

se denota por S, a la raíz cuadrada de la varianza tomada con signo
positivo.
Definición. Llamamos desviación absoluta media respecto a un pro-
medio P , que designamos por Dp , al valor de la expresión:
k
�
DP = |xi − P | fi
i=1
Así tenemos:
⇒ desviación absoluta media respecto a la media:
k
�
Dx̄ = |xi − x̄| fi
i=1
⇒ desviación absoluta media respecto a la mediana:

k
�
DM e = |xi − M e| fi
i=1
⇒ desviación absoluta media respecto a la moda:
k
�
DM o = |xi − M o| fi
i=1
3.4. ANEXO: MOMENTOS DE UNA DISTRIBUCIóN 29
3.2. Medidas de dispersión relativas

Estas medidas estudian la dispersión en relación al promedio con-
siderado.
Definición. Llamamos coeficiente de variación de Pearson asociado a
una distribución, al cociente entre su desviación típica y su media:
SX
(3.2.1) V =
x̄
Otros coeficientes para medir la dispersión en términos relativos
son: En una distri-
bución es más
Dx̄ DM e DM o representativo
(3.2.2) Vx̄ = ; VM e = ; VM o = ;··· aquel promedio
x̄ Me Mo
Como vemos se trata siempre de un cociente cuyo denominador es cuyo coeficiente
el promedio estudiado, y el numerador es la desviación absoluta media de variación sea
respecto a ese promedio. menor
Estos coeficientes se emplean para comparar la representatividad Comparando va-
de varios promedios en una distribución, o para comparar la represen- rias distribucio-
tatividad de un promedio en varias distribuciones. nes, un promedio
es más represen-
3.3. Variable tipificada
tativo en la que
Dados dos variables, por lo general éstas no son comparables. Cuan- proporcione un
do queremos comparar algunos valores de una y otra variable, tendre- coeficiente menor
mos que recurrir a una técnica de tipificación o estandarización de las
variables, que consiste en situar las variables en la misma escala para
poder comparar sus valores.
Definición. Llamamos variable tipificada a aquélla que tiene media
cero y varianza uno.
Dada una variable estadística X, podemos obtener una tipificación
de la misma mediante la transformación:
X − x̄
(3.3.1) Y =
SX
3.4. ANEXO: Momentos de una distribución
Cada momento hace referencia a un orden y, según sea éste, nos
indica alguna característica de la distribución.
Los momentos (potenciales) se clasifican en centrados y no centra-
dos.
30 3. MEDIDAS DE DISPERSIóN
Definición. Llamaremos momento no centrados (o momento centrado

respecto al origen) de orden r, que designamos por ar , al valor de la
expresión:
k
�
(3.4.1) ar = xri fi
i=1
Definición. Denominamos momento centrado respecto a la media o

simplemente momento centrado de orden r, que denotamos por mr , al
valor de la expresión:
k
�
(3.4.2) mr = (xi − x̄)r fi
i=1
Relaciones:
� � � � � �
r r r
(3.4.3) mr = ar − ar−1 a1 + · · · + (−1) r
a0 ar1
0 1 r
Capítulo 4
Medidas de forma y concentración
En este tema se estudian las medidas de forma, que son: la simetría

y el apuntamiento, y que hacen referencia a la representación gráfica
de la distribución. También se analizan las medidas de concentración o
desigualdad existente entre los valores de la distribución.
Para las primeras, se toma como punto de referencia la distribución
normal.
4.1. Introducción a la distribución normal

Hasta ahora, se utilizó el término distribución en un sentido muy
general, identificándose con una tabla estadística. Sin embargo, como
más adelante veremos, estas distribuciones son objeto de una ideali-
zación matemática obteniéndose unos cuantos modelos a los cuales se
ajustan las distribuciones empíricas observadas en la realidad.
El más importante de estos modelos es el que se denomina distribu-
ción normal ; es el más utilizado porque a él se ajustan, normalmente,
la mayor parte de las variables.
Este modelo aparece históricamente al estudiar la distribución de
los errores de medida.
Su gráfica es:
31
32 4. MEDIDAS DE FORMA Y CONCENTRACIóN
Es una variable y su ecuación matemática (nos referimos a la normal reducida o

tipificada: x̄ = estándar), es:
0, S = 1
1 −x2
(4.1.1) f (x) = √ e 2
2π
Las características intuitivas de esta distribución son:
Tiene forma de campana, repitiéndose más los valores próximos al
centro y disminuyendo su frecuencia simétricamente a medida que nos
alejamos. Las colas son asintóticas al eje de abscisas.
Es simétrica, en ella la media, la mediana y la moda coinciden y
valen cero; la varianza de esta variable es uno.
Su apuntamiento se toma como referencia para comparar las demás
distribuciones con respecto a ella.
4.2. Simetría y curtosis. Coeficientes

Definición. Decimos que una distribución es simétrica, si su repre-
sentación gráfica lo es respecto a la perpendicular trazada por su valor
central.
En otras palabras, si tomamos esa perpendicular como eje de si-
metría, diremos que la distribución es simétrica cuando el número de
valores a ambos lados del eje son los mismos, equidistantes dos a dos
y con idéntica frecuencia.
Se denomina asimetría a la falta de simetría en la distribución. La
asimetría puede ser positiva o a la derecha y negativa o a la izquierda,
según que sea en la cola de la derecha o izquierda del eje donde se
encuentre un mayor número de valores (y/o frecuencias).
En una distribución simétrica, se tiene: x̄ = M e = M o . Si la
distribución es asimétrica a la derecha, la relación es: M o ≤ M e ≤ x̄,
y x̄ ≤ M e ≤ M o cuando la asimetría es a la izquierda.
Los indicadores más utilizados son:

4.3. NDICES DE CONCENTRACIóN 33
Coeficiente de asimetría de Pearson:

x̄ − M o
(4.2.1) Ap =
S
y, coeficiente γ1 de Fisher :
m3
(4.2.2) γ1 = 3
S
Si en estos coeficientes se obtienen valores positivos, la asimetría
será positiva o a la derecha; y asimetría a la izquierda si su valor en
negativo.
Otras medidas importantes para el estudio de la forma de una distri-
bución son las que nos indican si su apuntamiento es inferior o superior
al normal. Estas medidas se denominan de curtosis o apuntamiento.
Estos indicadores se utilizan cuando la distribución es unimodal y si-
métrica o ligeramente asimétrica.
El apuntamiento es un término relativo, que tiene sentido cuando se
comparan dos distribuciones para saber cuál de ellas es más apuntada
o achatada. La distribución que se toma para comparar con ella todas
las demás es la normal reducida.
Diremos que una distribución es mesocúrtica, si su grado de cur-

tosis coincide con el de la normal, platicúrtica si es más achatada y
leptocúrtica si su apuntamiento es superior.
El coeficiente más empleado para medir la curtosis es el denominado
γ2 de Fisher , que se define como:
m4 En una normal
(4.2.3) γ2 = 4 − 3 estándar, el coefi-
S
ciente γ2 = 0
Este coeficiente tomará un valor positivo, negativo o nulo, según
que la curva sea leptocúrtica, platicúrtica o mesocúrtica.
4.3. Índices de concentración

T otal =
Estas medidas estudian la desigualdad existente entre los distintos �N
xi =
valores que toma la variable; o dicho de otra forma, si consideramos �i=1
k
i=1 xi fi
que la variable reparte un todo o total entre los distintos individuos de
la población, estos índices analizan la equitatividad de este reparto.
Las medidas de concentración más utilizadas son:
34 4. MEDIDAS DE FORMA Y CONCENTRACIóN
⇒ Índice de Gini o índice de Lorenz

Si la variable toma los valores x1 , · · · , xk , con frecuencias n1 , · · · , nk ,
se define el índice de Gini como:
�k
− xs )nr ns
r>s (xr
(4.3.1) IG = �k
(N − 1) i=1 xi ni
El índice de Lorenz se define como:
�k−1
i=1 (pi − qi )
(4.3.2) IL = �k−1
i=1 pi
Puede compro- �i
xj n j
barse que ambos donde pi = NNi y qi = �j=1k
i=1 xi ni
índices coinciden. En ambos casos, el índice toma valores comprendidos entre cero
y uno, siendo cero en caso de equidistribución (la variable toma el
mismo valor sobre todos los individuos) y uno cuando la concentración
es máxima (existe un único elemento de la población que absorbe el
total de la variable).
Si representamos en un eje de coordenadas los pares (pi , qi ), el grá-
fico resultante sería de la forma:
La curva de con-
centración, es
una representa-
ción muy usual
para analizar la
concentración de
una distribución,
y de forma es-
pecial cuando se
compara la de-
sigualdad de esta
distribución en
varios períodos de
tiempo.
La curva AC se denomina curva de concentración o curva de Lo-
renz, y la diagonal del primer cuadrante línea de equidistribución o de
igualdad perfecta. A medida que la concentración disminuye, la curva
tiende a acercarse a la línea de equidistribución; por el contrario si la
concentración aumenta, la curva tiende al triángulo ABC.
Capítulo 5
Dos caracteres y sus posibles relaciones
En temas anteriores hemos tratado las características más impor-

tantes de una distribución unidimensional. Ahora nos planteamos la
observación conjunta de dos variables.
Los fines que se persiguen son:
⇒ Analizar el comportamiento individual de las variables cuando
se han observado conjuntamente.
⇒ Medir la relación lineal existente entre las dos variables.
5.1. Distribuciones bidimensionales: tabulación y

representación
Consideremos una población formada por N elementos o individuos.
Sobre esta población se pueden observar dos o más características de
forma conjunta (caracteres cuantitativos, cualitativos o mixtos).
Definición. Se denomina variable estadística bidimensional , a la ob-
servación conjunta de dos caracteres cuantitativos. De forma genérica
se denota por (X, Y ).
Supongamos que la variable X tome k valores diferentes x1 , · · · , xk ,
con frecuencias n1. , · · · , nk. ; y la variables Y , h valores distintos y1 , · · · , yh
con frecuencias n.,1 , · · · , n.h
Denotemos por nij la repetición conjunta del par (xi , yj )
Con esta notación podemos formar la siguiente tabla:
Y /X x1 x2 · · · xk n.j
y1 n11 n21 · · · nk1 n,1
y2 n12 n22 · · · nk2 n,2
.. ... ... ... ... ..
. .
yh n1h n2h · · · nkh n.h
ni. n1. n2. · · · nk. n.− = N
� � � �
donde: ni. = hj=1 nij ; n.j = ki=1 nij ; n.. = ki=1 ni. = hj=1 n.j =
�k �h
i=1 j=1 nij
35
36 5. DOS CARACTERES Y SUS POSIBLES RELACIONES
A este cuadro se le denomina tabla de correlación. Cuando en vez

de caracteres cuantitativos, se trata de caracteres cualitativos, se po-
dría formar un cuadro como el anterior al que se denomina tabla de
contingencia.
En el caso de que una o las dos distribuciones unidimensionales
viniesen agrupadas en intervalos, a la tabla anterior se le agregaría
una nueva fila y/o columna formada por las clases de agrupación, y
la(s) correspondiente(s) a los valores sería sustituida por las marcas de
clase de esta(s) distribución(es). La frecuencia relativa conjunta del par
n
(xi , yj ), será: fij = Nij
La distribución conjunta de las variables X e Y se denomina dis-
tribución bidimensional , y genéricamente se representa por la terna
(xi , yj , nij ).
Las representaciones gráficas más usuales de las distribuciones bi-
dimensionales son: la nube de puntos y el estereograma.
La nube de puntos consiste en representar sobre un plano de coor-
denadas los distintos pares (xi , yj ). (Por lo general, se resalta la impor-
tancia (frecuencia) que tiene cada punto por el espesor del mismo.)
Cuando las variables X e Y vienen agrupadas en intervalos, las ob-

servaciones conjuntas de ambas aparecerán distribuidas por rectángulos
(formados por el producto cartesiano de los intervalos de agrupación
de dichas variables).
En este caso la representación más usual es el estereograma, que
consiste en construir paraleleopípedos cuyas bases son los rectángu-
los anteriores, de modo que su volumen sea igual o proporcional a su
frecuencia conjunta nij .
5.2. Distribuciones marginales y condicionadas

En este epígrafe, a partir de una distribución bidimensional, se es-
tudian individualmente las distribuciones de X e Y ante las dos situa-
ciones extremas: distribución de una variable sin tener en cuenta para
5.2. DISTRIBUCIONES MARGINALES Y CONDICIONADAS 37
nada los valores con que se presente la otra (distribuciones margina-

les); y sabiendo que una variable toma un determinado valor, obtener
la distribución de la otra variable (distribuciones condicionadas).
Distribuciones marginales. El número de veces que se presenta

el valor xi de la variable X será: ni1 + ni2 + · · · + nih , que denotamos
por ni. y que figura en la última fila de la tabla de correlación.
Así la distribución de la variable estadística X obtenida indepen-
dientemente de los resultados con que se presenta la variable Y , será:
xi ni.
x1 n1.
x2 n2.
.. ..
. .
xk nk.
que se denomina distribución marginal de la variable X.
Se define la frecuencia marginal relativa como:
� k
�
ni. �
fi. = ; fi. = 1
N i=1
De igual forma, se denomina distribución marginal de la variable

estadística Y , al conjunto de valores que toma esta variable junto con
sus correspondientes frecuencias sin tener en cuenta lo que ocurre con
la variable X, esto es:
yj n.j
y1 n,1
y2 n,2
.. ..
. .
yh n.h
��
n.j h
Y su frecuencia relativa marginal será: f.j = N
; j=1 f.j = 1
Distribuciones condicionadas. Nos planteamos ahora la distri-

bución de una variable condicionada a que la otra se presentó con un
determinado valor.
Así si sabemos que la variable Y toma un valor yj , la distribución
de X condicionada a este valor, será:
xi /yj nij
x1 n1j
x2 n2j
.. ..
. .
xk nkj
Y la frecuencia relativa de un valor xi condicionado a yj , que deno-
tamos por fi/j , será:
� k �
nij fij �
fi/j = = ; fi/j = 1
n.j f.j i=1
De forma análoga, se define la distribución de Y condicionada a un
valor xi , como:
yj /xi nij
y1 ni1
y2 ni2
.. ..
. .
yh nih
Siendo la frecuencia
�� relativa� de un valor yj condicionado a xi :
nij fij h
gj/i = ni. = fi. ; j=1 gj/i = 1 .
Usamos la notación g para representar la frecuencia relativa, para
no confundirla con la anterior en otro par de índices (j, i); pero en ge-
neral no haremos tal distinción y denotaremos por f frecuencia relativa
y distinguiendo fi/j o fj/i como las frecuencias condicionadas de X o
Media margi-
de Y
nal: x̄, ȳ, media
Trasladando las características de las variables unidimensionales a
condicionada:
las distribuciones marginales y condicionadas, se obtiene: media margi-
x̄/yj , ȳ/xi
nal y media condicionada, varianza marginal y varianza condicionada,
...; entre las cuales pueden establecerse las siguientes relaciones:
⇒ La media de las medias condicionadas coinciden con la media
marginal.
⇒ La varianza marginal es igual a la varianza de las medias con-
dicionadas más la media de sus varianzas condicionadas.
5.3. Independencia estadística. Tipos de dependencia

Dadas dos variables X e Y , puede ocurrir que entre ellas existe
una relación matemática exacta, en cuyo caso decimos que entre estas
variables existe una dependencia funcional .
5.4. COVARIANZA Y COEFICIENTE DE CORRELACIóN LINEAL 39
Diremos que la variable X es independiente de la variable Y , si la

distribución de X no depende para nada del valor que tome la variable
Y ; esto es, la distribución de X es la misma para cualquier condicio-
namiento de la variable Y .
Formalmente:
∀i = 1, · · · , k , fi/j = fi/j ∗ ; ∀j, j ∗ = 1, · · · , h

Por tanto, si la variable X es independiente de Y , las distribuciones
condicionadas de X a cualquier valor de Y coinciden y son iguales a la
distribución marginal de X.
Nota 3. Así pues, se tiene: condición necesaria y suficiente para que
X sea independiente de Y es que: fij = fi. f.j
Esta relación se conoce como condición de independencia.
Dada la simetría de esta relación, se verifica: ’Si X es independiente
de Y , también Y lo será de X’.
Entre la dependencia total y la independencia absoluta, existirá un
abanico de ’grados’ de dependencia. A esta relación, que no es exacta,
se le denomina dependencia estadística.
5.4. Covarianza y coeficiente de correlación lineal

La covarianza es una medida de la variación conjunta (lineal) de
dos variables.
Definición. La covarianza se denota por SXY y se define como el valor
de la expresión:
k �
� h
(5.4.1) SXY = (xi − x̄) (yj − ȳ) fij
i=1 j=1
que también puede expresarse como:
k �
� h
La covarianza nos
(5.4.2) SXY = xi yj fij − x̄ȳ indica si la rela-
i=1 j=1 ción es positiva
Este valor puede ser positivo, negativo o nulo, indicando una corre- o negativa, pero
lación positiva (directa), negativa (inversa) o ausencia total de correla- no el grado de la
ción lineal, respectivamente. relación.
Definición. Denominamos coeficiente de correlación lineal , que deno-

Para medir el tamos por rXY al valor de la expresión:
grado de relación SXY
(5.4.3) rXY =
(dependencia) S X SY
lineal entre dos
Este coeficiente es un número que oscila entre -1 y 1; su signo de-
variables, se in-
pende del de la covarianza y por tanto, tiene el mismo significado que
troduce rXY
ésta.
rXY = 0 no im- Además:
plica que X e Y ⇒ Cuando existe una dependencia funcional, |rXY | = 1.
sean independien-
tes. ⇒ Si las variables son independientes, entonces rXY = 0.
Así pues, el coeficiente de correlación lineal en términos absolutos es un
número que nos indica el grado de dependencia lineal, que será mayor
en la medida en que se acerque a 1 y será menor si su valor se aproxima
a cero.
5.5. ANEXO: Momentos bidimensionales
Se trata de una generalización de los momentos unidimensionales
al caso de dos variables.
Llamamos momento no centrado (o centrado respecto al origen) de
orden (r, s), que denotamos por ars , al valor de la expresión:
k �
� h
ars = xri yjs fij
i=1 j=1
Denominamos momento centrado (respecto a la media) de orden
(r, s) de la variable (X, Y ), que representamos por mrs , al valor de la
expresión:
k �
� h
mrs = (xi − x̄)r (yj − ȳ)s fij
i=1 j=1
Se verifica:
a00 = 1 ; a10 = x̄ ; a01 = ȳ

2
m00 = 1 ; m11 = SXY ; m20 = SX ; m02 = SY2
Capítulo 6
Ajuste
En el tema anterior nos hemos ocupado de medir el grado de de-

pendencia (lineal) entre dos variables. Abordamos ahora el problema
de encontrar la función que nos expresa tal dependencia.
6.1. Ajuste: concepto y significado

Consideremos una distribución bidimensional (xi , yj , nij ) y supon-
gamos que entre las variables X e Y existe una cierta dependencia
estadística. Al no ser funcional esta relación, no existirá una función
matemática que de forma exacta exprese esta dependencia.
Se trata entonces de buscar la función que mejor ajusta esa relación
entre las variables.
Supondremos que entre estas variables existe una relación causal ,
donde la variable X es la causa y la variable Y el efecto producido por
esa causa. También se les suele denominar variable explicativa (X) y
variable explicada (Y).
El problema del ajuste es encontrar la ecuación que mejor ’explique’
el efecto en función de la causa. Este objetivo incluye dos etapas:
⇒ Obtener el modelo matemático o familia de funciones que mejor
se adapte a los datos disponibles
⇒ Determinar los parámetros que especifican la función.
6.2. El método de los mínimos cuadrados

En lo que sigue, supondremos que es conocido el tipo de función
(modelo) que mejor se ajusta a una nube de puntos (representación
gráfica usual en estos casos). El problema se reduce a obtener los pa-
rámetros de esta función para lo cual existen diversos métodos, siendo
el de los mínimos cuadrados el más utilizado.
Supongamos que se trata de obtener una función f que nos permi-
ta expresar Y = f (X), y que esta función depende de n parámetros
β1 , β2 , · · · , βn
Y = f (β1 , · · · , βn , X)
41
42 6. AJUSTE
Como la dependencia no es exacta, esta función no pasará por todos

los pares (xi , yj ), sino que cometerá ciertos errores eij :
(6.2.1) eij = yj − f (β1 , · · · , βn , xi )

El método de los mínimos cuadrados consiste en elegir los paráme-
tros de forma que hagan mínima la suma de todos los errores cuadrá-
ticos.
Esto es:
k �
� h k �
� h
mı́n e2ij nij = mı́n (yj − f (β1 , · · · , βn , xi ))2 nij
β1 ,··· ,βn β1 ,··· ,βn
i=1 j=1 i=1 j=1
La condición necesaria para la existencia de óptimo en un punto es

que las derivadas parciales en ese punto se anulen; con lo cual calculan-
do estas derivadas respecto a β1 , · · · , βn e igualando a cero se obtiene
un sistema de n ecuaciones con n incógnitas cuya solución (única) de-
También podría-
termina los parámetros que optimizan la función.
mos calcular las
Por otra parte, esta función es un paraboloide, con lo cual solo
derivadas parcia-
presenta un máximo o un mínimo; el óptimo obtenido no es un máximo
les de segundo or-
puesto que al tratarse de desviaciones, éstas aumentarán cuando los
den y comprobar
parámetros tienden a infinito. Por tanto el óptimo encontrado tiene
que son positivas.
que ser un mínimo.
6.3. Algunas funciones ajustadas por mínimos cuadrados

⇒ Ajuste lineal:
Si Y = β1 + β2 X, (recta de ajuste de Y sobre X), al sustituir en los
Aunque matemá- pares de datos, se tendrá: yj = β1 + β2 xi + eij , por tanto:
ticamente pode-
k �
� h k �
� h
mos calcular la
recta de Y /X o
eij fij = (yj − β1 − β2 xi )2 fij
i=1 j=1 i=1 j=1
de X/Y , desde
el punto de vista
igualando las derivadas parciales a cero y operando, se obtiene:
conceptual no po-
demos invertir la
SXY
(6.3.1) Y − ȳ = 2
(X − x̄)
causa y el efecto, SX
y éstos debemos de forma análoga, la recta de ajuste de X sobre Y , (X/Y ) será:
establecerlo an- SXY
tes de hacer el (6.3.2) X − x̄ = 2 (Y − ȳ)
SY
ajuste.
⇒ Ajuste potencial:
6.3. ALGUNAS FUNCIONES AJUSTADAS POR MíNIMOS CUADRADOS 43
SXY
(6.3.3) X − x̄ = (Y − ȳ)
SY2
Y = β1 X β2 , tomando logaritmos, se tiene:
log Y = log β1 + β2 log X

considerando las variables Y � = log Y , y X � = log X, y el parámetro
b1 = log β1 , el modelo se transforma en:
Y � = b1 + β2 X �
con lo cual podemos proceder según un ajuste lineal sobre las nuevas
variables.
⇒ Ajuste exponencial:
Y = β1 β2X . tomando logaritmos se tiene: log Y = log β1 + X log β2
Haciendo la transformación: Y � = log Y , b1 = log β1 , b2 = log β2 , queda:
Y � = b1 + b2 X
que se resuelve como un ajuste lineal, y deshaciendo el cambio, se ob-
tiene los parámetros que determinan la función inicial.
⇒ Ajuste hiperbólico:
Y X = β1 . Se aplica el cambio X � = X1 .
⇒ Ajuste parabólico:
Y = β1 + β2 X + β3 X 2 , entonces: eij = (Yj − β1 − β2 xi − β3 Xi2 )
Las ecuaciones normales resultantes (las que se obtienen al igualar
las derivadas parciales a cero) son:
a01 = β1 + β2 a10 + β3 a20

a11 = β1 a10 + β2 a20 + β3 a30
a21 = β1 a20 + β2 a30 + β3 a40
donde ars es el momento bidimensional no centrado definido anterior-
mente.
De este sistema de ecuaciones se obtienen los parámetros β1 ,β2 y
β3 .
⇒ Ajuste logístico:
La curva logística tiene unas características especiales, que se pre-
sentan en muchos fenómenos relacionados con el crecimiento de la po-
blación. Normalmente, hace referencia al crecimiento de una variable y
al tiempo.
44 6. AJUSTE
Se supone que tal magnitud no puede estar por debajo de un cierto

valor B, crece de forma continuada pero el principio de ’escasez ’ no le
permite superar cierta cantidad A + B (asíntota superior).
Su formulación matemática es:
A
(6.3.4) Y = +B
1 + β1 e−β2 t
Existen varios métodos para ajustar la curva logística. Fijadas las
asíntotas (por información previa) A y A+B, uno de estos métodos
basado en los mínimos cuadrados, consiste en transformar la ecuación
anterior en:
A
β1 e−β2 t = −1
Y −B
tomando logaritmos puede expresarse como:
� �
A
log β1 − β2 t = log −1
Y −B
� A �
que haciendo el cambio: b1 = log β1 ;b2 = −β2 ; Y � = log Y −B −1 ,
resulta:
Y � = b1 + b2 t
Y a partir de aquí, podemos determinar los parámetros con un
ajuste lineal por mínimos cuadrados.
Capítulo 7
Regresión y correlación
De nuevo abordamos el problema de medir el grado de relación entre

dos variables y la formulación matemática que nos permite expresar el
efecto en función de la causa; aunque todo ello con un planteamiento
diferente al que se realizaba en capítulos anteriores.
7.1. Correlación: concepto y significado

Habíamos definido la correlación lineal como el grado de relación
lineal entre dos variables. Nos planteamos ahora el grado de relación
conjunta de dos variables pero en términos generales (que puede ser no
lineal).
Por otra parte, también es diferente el enfoque de este tratamiento,
pues mientras con el coeficiente de correlación lineal, estudiábamos el
grado de dependencia ’a priori’ entre las variables (antes de obtener
la formulación matemática de tal dependencia); ahora, abordaremos
el problema ’a posteriori’, esto es, suponemos resuelto el problema de
encontrar la función f (de la cual nos ocuparemos más adelante) que Denotaremos la
nos permite expresar: Y = f (X) variable teórica
Cuando sustituimos en la relación anterior, la variable X por los por Ŷ y la va-
valores observados: x1 , · · · , xk obtenemos unos valores teóricos para Ŷ : riable empírica
ŷ1 , · · · , ŷk obtenidos a través del modelo anterior. Y.
La variable teórica Ŷ viene explicada en su totalidad por la variable
explicativa X y por el modelo (función) empleado. Su distribución es
la siguiente:
ŷi ni.
ŷ1 n1.
ŷ2 n2. Se supone que los
.. .. errores por exceso
. .
ŷk nk. y por defecto se
compensan.
La media de esta variable coincide con ȳ y su varianza, que se
denomina
� �varianza explicada, está acotada por la varianza total de Y
SŶ ≤ SY .
2 2
45
46 7. REGRESIóN Y CORRELACIóN
El cociente:
Sŷ2
Sy2
nos indica la parte de variación total de Y que viene explicada por la
variación de X a través del modelo.
Este cociente toma valores entre cero y uno, siendo cero si las va-
riables son independientes y uno cuando la dependencia es funcional;
además, una mayor dependencia se refleja en un incremento de este
cociente.
De este modo, este cociente puede ser considerado como una medida
de correlación, a la que se denomina coeficiente de determinación y se
designa por R2
7.2. Varianza residual y coeficiente de determinación

Si la dependencia no es exacta, el modelo no explicará totalmente
el comportamiento de la variable Y , por lo que surgirá una componente
errática o residual e, de modo que:
yj = ŷi + eij
Este
� residuo, será la nueva variable por� lo que podemos calcular ē y Se2
� �
ē = 0 ; Se2 = ki=1 hj=1 (yj − ŷi )2 fij
La varianza de los errores, Se2 , se denomina varianza residual . Se
tiene:
(7.2.1) Sy2 = Sŷ2 + Se2
La varianza residual es una nueva medida de correlación, pues cuanto
menores sean los errores, mejor será la correlación y más pequeña la
varianza residual.
Si la dependencia es funcional, Se2 = 0; y si las variables son inde-
pendientes, Se2 = Sy2 . Teniendo en cuenta la relación 7.2.1, el coeficiente
de determinación puede expresarse como:
Se2
(7.2.2) R2 = 1 −
Sy2
Cuando la función f es lineal. resulta:
Se2 = (1 − r2 )Sy2 ; y Sy2 = r2 Sy2
con lo cual en este caso se tiene la identidad: R2 = r2 .

7.3. REGRESIóN. LíNEA DE REGRESIóN 47
7.3. Regresión. Línea de regresión

Abordamos ahora la explicitación del modelo.
Se conoce con este término de regresión el método estadístico desa-
rrollado para investigar las relaciones entre variables.
Consideremos un valor determinado de la variable X (eje de absci-
sas), xi ; para éste la variable Y tomará diversos valores, de los cuales
un valor representativo será la media condicionada ȳ/xi , (podríamos
sustituir el conjunto de valores sobre la vertical en xi por su represen-
tante).
Si la variable X fuese continua, obtendríamos una sucesión infinita
de puntos (representantes) que formarán una curva a la que denomina-
remos línea de regresión de Y sobre X, (Y /X). Esta línea representaría
la nube de puntos.
Si la variable X es discreta, los puntos xi son valores aislados y la
curva anterior es una sucesión finita o infinita de puntos. No obstante
en este caso también se denomina línea de regresión de Y /X.
Algunos autores
De forma análoga, se podría definir la linea de regresión de X/Y .
llaman a éste
La línea de regresión se puede considerar como una curva ideal, que en
método tipo II
general será desconocida y por lo tanto, tendremos que plantearnos su
y al visto en el
ajuste o estimación.
tema anterior
Aparece así un nuevo concepto que se denomina regresión mínimo
anterior tipo I.
cuadrática.
Llamamos línea de regresión mínimo-cuadrática, a la curva de ajus-
te obtenida sobre la distribución bidimensional (ȳ/xi , xi , ni. ) por el mé-
todo de los mínimos cuadrados.
En otras palabras, se trata de obtener los parámetros β1 , β2 , · · · , βn ,
que minimizan la expresión:
k
�
(ȳ/xi − f (β1 , β2 , · · · , βn , xi ))2 fi.
i=1
Pero minimizar esta expresión, equivale a minimizar
k �
� h
(yj − f (β1 , β2 , · · · , βn , xi ))2 fij
i=1 j=1
Por lo que la línea de regresión mínimo -cuadrática, coincide con la línea

de ajuste obtenida por el mismo método para la distribución empírica
(xi , yj , nij ).
48 7. REGRESIóN Y CORRELACIóN
7.4. Regresión lineal: coeficiente de regresión

Aunque conceptualmente, la línea de ajuste y la línea de regresión
son términos diferentes, matemáticamente la función obtenida es la
misma. Por tanto, los resultados obtenidos para el tema anterior serán
válidos para las líneas de regresión.
Así pues, cuando la línea de regresión de Y /X es una recta, ésta
vendrá dada por:
SXY
(7.4.1) (Y − ȳ) = 2
(X − x̄)
SX
A la pendiente de esta recta se la denomina coeficiente de regresión
de Y /X y se denota por ry/x , cuyo valor viene deado por:
SXY
(7.4.2) ry/x = 2
SX
Este coeficiente nos indica la variación producida en el efecto, para
una variación unitaria en la causa.
Análogamente, llamamos coeficiente de regresión de X/Y , a: rx/y =
SXY
SY2
.
Características.
1. Las rectas de regresión se cortan en el punto (x̄, ȳ).
2. Las pendientes de las rectas de regresión tienen el mismo signo
3. En términos absolutos, la recta de regresión de X/Y tiene ma-
yor pendiente que la recta de Y /X.
4. rx/y ry/x = R2 = r2 .
5. Cuando las variables son independientes, las rectas de regresión
son perpendiculares y paralelas a los ejes.
6. Si la dependencia es funcional, las rectas de regresión coinciden.
7.5. Introducción a la predicción (I)

La línea de regresión nos proporciona un modelo teórico median-
te el cual la causa explica el efecto. Empíricamente se han observado
una serie de valores causales: x1 , · · · , xk , pero lógicamente esta suce-
sión no recogerá todos los posibles valores que puede tomar la variable
explicativa, por lo cual nos podemos plantear ¿qué efecto tendría, previ-
siblemente, un posible valor causal x∗ no recogido en las observaciones
empíricas?
Parece claro que una vez obtenido el modelo teórico Y = f (X);
para un valor determinado x∗ de X, el valor previsible de Y sería:
ŷ ∗ = f (x∗ ).
7.5. INTRODUCCIóN A LA PREDICCIóN (I) 49
Aunque éste es un planteamiento muy general, cuya solución provie-

ne del campo de las matemáticas, los métodos de regresión nos propor-
cionan otras medidas (Se2 y R2 ) que acompañando al resultado previsi-
ble nos permiten hablar de ciertos márgenes de error en las previsiones
y de una fiabilidad de las mismas.
La varianza residual Se2 nos indica la dispersión de los errores alre-
dedor de sus representantes, e ŷ ∗ será el representante teórico de x∗ de
haberse dado este valor de la variable X. Luego Se2 de ’alguna forma’
(bajo algunas condiciones muy generales de regularidad), nos indica la
dispersión en torno a la previsión ŷ ∗ .
S2
El coeficiente de determinación R2 = Sŷ2 nos indica la parte de la
y
variación total que viene explicada por el modelo, y por lo tanto es una
medida de la bondad o fiabilidad del modelo y en consecuencia de la
previsión.
Así pues, siempre que se efectúa una predicción deberá de ir acom-
pañada de sus márgenes de error y un grado de seguridad en la misma.
(Este apartado será posteriormente ampliado).
Capítulo 8
Números índices
En este tema, se plantea la medición relativa de la evolución de una

o varias magnitudes. Se estudian los principales ratios utilizados.
8.1. Concepto de número índice
Definición. Un número índice es una medida estadística que nos indi-
ca la variación de una o varias magnitudes en el tiempo o en el espacio.
Un indicador es una medida de comparación entre dos situaciones.
La comparación puede ser a lo largo del tiempo (longitudinal ); espacial,
cuando en un instante determinado del tiempo (análisis transversal ) se
comparan los desequilibrios entre las distintas zonas; o mixta cuando
conjuntamente se comparan las variaciones espaciales a lo largo del
tiempo.
En cualquier caso se compara una situación variable (actual ) res-
pecto a una que se toma de referencia y que se denomina situación
base.
En lo que sigue, nuestro planteamiento irá enfocado a los índices
temporales aunque sería fácilmente interpretable en términos de índi-
ces espaciales. Al final del tema, figura un anexo que recoge algunos
indicadores especiales específicos.
Consideremos el caso más elemental en el que se observa una sola
variable estadística X a lo largo de un número de períodos (que a
veces denominamos ’años’ aunque su longitud sea otra cualquiera), t =
0, 1, · · · , T . A lo largo de estos períodos la variable toma una serie
Multiplicando
de valores x0 , x1 , · · · , xT . Al período cero lo llamamos período base
el indicador por
(aunque podría considerarse otro período base diferente), y al período
cien, nos indica
t, período actual .
la variación en
Una medida que indica la variación relativa que experimenta la
tantos por ciento
variable X, al pasar del período cero al actual es :
xt
(8.1.1) It0 =
x0
A este indicador se le denomina índice simple. El adjetivo simple
indica que se refiere a una sola variable; en contraposición cuando el
índice se refiere a dos o más variables se denomina complejo.
51
52 8. NúMEROS íNDICES
8.2. Propiedades exigibles a los indicadores

Sería deseable que todo número índice satisficiera las siguientes pro-
piedades:
1. Existencia. Un número índice debe ser un numero determinado
y no nulo.
2. Identidad. Cuando coincide el período base y el período actual,
el indicador tomará un valor unitario (o 100 si se expresa en
porcentaje).
3. Homogeneidad. El valor del índice no se altera si se produce
un cambio en las unidades de medida.
4. Inversión. Si permutamos el período base y el actual, el índice
que se obtiene es el inverso del original.
5. Circular. Podemos expresar la variación (relativa) entre dos
períodos mediante el producto de variaciones intermedias.
6. Proporcionalidad. Si se produce una variación proporcional
en todas las magnitudes, el índice variará en la misma propor-
ción.
Los índices simples satisfacen estas seis propiedades, pero no así los
complejos, para los cuales las propiedades anteriores serán un catálogo
que nos permitirá comparar la bondad de los diferentes indicadores.
8.3. Índices sintéticos: ponderados y no ponderados

Supongamos ahora que se observa la evolución de variables X1 , X2 , · · · , Xn
a lo largo de una sucesión de ’años’ t = 0, 1, · · · , T cuya descripción es
la siguiente:
Años X1 X2 · · · Xn
0 x10 x20 · · · xn0
1 x11 x21 · · · xn1
.. ... ... ..
. ··· .
T x1T x2T · · · xnT
donde xij denota el valor que la variable Xi toma en el período j.
Se podrían formar n series de índices simples que indiquen la evo-
lución de cada una de estas variables o un índice complejo que muestra
la variación conjunta de las mismas. Este índice complejo sintetiza la
información desagregada de las n variables, por lo que a tales índices
se les denomina sintéticos.
Los índices sintéticos se clasifican en ponderados y no ponderados,
según que las variables dentro de su conjunto tengan diferente o igual
peso respectivamente.
8.3. NDICES SINTéTICOS: PONDERADOS Y NO PONDERADOS 53
A partir de la tabla anterior, podemos obtener las siguientes series

de índices simples: (base año 0)
Años X1 X2 ··· Xn
(1) (2) (n)
0 I00 I00 ··· I00
(1) (2) (n)
1 I10 I10 ··· I10
.. ... ... ..
. ··· .
(1) (2) (n)
T IT 0 IT 0 ··· IT 0
(i)
donde It0 = xxi0it es el índice simple de la i-ésima variable correspon-
diente al año t con base el año 0.
De lo anteriormente expuesto podemos intuir que el papel de los
índices sintéticos dentro de los simples es equivalente al que juega el
promedio en relación con las distribuciones; por lo cual las fórmulas de
índices sintéticos más utilizados serán promedios de índices simples.
Índices no ponderados. Los índices no ponderados más usuales

son:
1. Media aritmética:
n
1 � (i)
(8.3.1) It0 = I
n i=1 t0
2. Media geométrica:
� n
� n1
� (i)
(8.3.2) Gt0 = It0
i=1
3. Media armónica:
n
(8.3.3) Ht0 = �n 1
i=1 I (i)
t0
El agregado es el
4. Media agregativa: Consiste en obtener los agregados de cada
total del período
año, y con éstos calcular un índice simple.
�n
xit
(8.3.4) At0 = �ni=1
i=1 xi0
De estos indicadores, por su utilización, destacan de forma especial

la media aritmética que se denomina índice de Sauerbeck , y la media
agregativa conocida como índice de Bradstreet-Dûtot.
Índices ponderados. Cuando se tiene en cuenta la distinta im-

portancia que tiene cada magnitud en el conjunto de ellas, y que para
cada Xi viene indicada por un peso o ponderación wi , el índice resul-
tante es denominado ponderado.
En este caso, aplicando las fórmulas anteriores, se tiene:
1. Media aritmética:
�n (i)
(W ) It0 wi
(8.3.5) It0 = �k
i=1 i=1 wi
2. Media geométrica:
� n �
� �n 1
� �wi i=1
wi
(W ) (i)
(8.3.6) Gt0 = It0
i=1
3. Media armónica:
�n
(W ) wi
(8.3.7) Ht0 = �ni=1 wi
i=1 I (i)
t0
4. Media agregativa
�n
(W ) xit wi
(8.3.8) At0 = �ni=1
i=1 xi0 wi
Como en el caso anterior, las fórmulas más empleadas son los de la
media aritmética y la media agregativa.
Las ponderaciones, en relación con el tiempo, se clasifican en: cons-
tantes, cuando no se alteran a lo largo de los años en los que el índice
tiene validez, y que generalmente se toma el peso de la magnitud en el
año base; y ponderaciones variables, que se cambian año a año, según
la importancia que en cada uno tengan las distintas magnitudes. En el
primer caso las ponderaciones se denotan por wi0 y se denominan de
base fija, y en el segundo se les llama de base móvil y se designan por
wit .
Cuando en la media aritmética se utilizan ponderaciones de base
fija, la fórmula que se obtiene es:
�n (i)
i=1 It0 wi0
(8.3.9) Lt0 = � n
i=1 wi0
que se conoce como índice de Laspeyres.
Si empleamos ponderaciones de base móvil, se obtiene:
�n (i)
i=1 It0 wit
(8.3.10) Pt0 = � n
i=1 wit
8.5. PARTICIPACIóN Y REPERCUSIóN 55
fórmula que se conoce como índice de Paasche.

Se llama índice ideal de Fisher , a la raíz cuadrada del producto de
los índices de Laspeyres y de Paasche.
Relaciones:
⇒ Estos tres índices están comprendidos entre el mínimo y el má-
ximo de los índices simples.
⇒ Generalmente se tiene: PT 0 ≤ LT 0 .
⇒ El índice de Fisher está comprendido entre los índices de Paas-
che y de Laspeyres.
8.4. Cambio de base

Supongamos que tenemos una serie de índices con base en el pe-
ríodo cero, I00 , I10 , · · · , IT 0 ; y queremos transformar esta serie en otra
I0t∗ , I1t∗ , · · · , It∗ t∗ , · · · , IT t∗ , con base en el período t∗ .
Para calcular los nuevos índices, consideremos las siguientes rela-
ciones:
I0t∗ = It1∗ 0 (Inversión)
Si 0 ≤ t∗∗ ≤ t∗ , entonces: It∗ 0 = It∗∗ 0 It∗ t∗∗ (Circular), por tanto:
I t∗ 0
It∗ t∗∗ =
It∗∗ 0
de donde: It∗∗ t∗ = It∗1t∗∗ (Inversión)
Por último si t∗ ≤ t∗∗ ≤ t, entonces se tiene:
It∗∗ 0 = It∗ t∗∗ It∗ 0 (Circular)
y despejando se obtiene:
It∗∗ 0
It∗∗ t∗ =
I t∗ 0
Estas fórmulas nos facilitan el cambio de base, permitiéndonos obtener
la nueva serie con base t∗ .
8.5. Participación y repercusión

Nos proponemos ahora medir el efecto que produce la variación de
una magnitud en la variación del índice general.
Desarrollamos todo lo que sigue para el índice de Laspeyres, aunque
el razonamiento será válido para cualquier otro indicador.
El índice general en el período T con base el año cero, será:
�n (i)
i=1 IT 0 wi0
LT 0 = � n
i=1 wi0
Supongamos que en el período actual, se produce una variación en

las magnitudes que denotamos por ∆X1T , · · · , ∆XnT (algunas de las
cuales pueden ser nulas); la variación del índice general viene dada
por1:
�k (i) (1) (n)

∆It0 wi0 ∆It0 w10 ∆It0 wn0
(8.5.1) i=1
∆Lt0 = �n = �n + · · · + �n
i=1 wi0 i=1 wi0 i=1 wi0
donde el i-ésimo sumando será el efecto producido por la variación de

la i-ésima variable, al cual denominamos repercusión de la variable Xi
en la variación del índice general.
(i)
∆I wi0
(8.5.2) Ri = �nt0
i=1 wi0
Llamaremos variación porcentual del índice general, que denotare-

mos por ∆LT 0 % a la proporción que la variación del índice representa
sobre el índice general:
�n (i)
∆Lt0 i=1 ∆It0 wi0
∆Lt0 % = 100 = �n (i) 100
Lt0 It0 wi0
i=1
Denominamos repercusión porcentual de la magnitud Xi , que deno-
tamos por Ri %, al cociente:
(i)
Ri ∆I wi0
Ri % = 100 = �n t0 (i) 100
Lt0 It0 wi0
i=1
Por último llamamos participación de la variable Xi , en la variación

del índice general a:
(i)
Ri % ∆I wi0
Pi = 100 = �n t0 (i) 100
∆Lt0 % ∆It0 wi0
i=1
8.6. ANEXO: Índices espaciales

Como se observó con anterioridad, el desarrollo de las secciones
previas podría hacerse en términos de índices espaciales sin más que
sustituir los períodos 0, 1, · · · , T , por zonas 1, 2, · · · , h.
En este anexo, estudiamos algunos índices espaciales que no siguen
la línea anterior sino que son específicamente desarrolladas por este
tipo de problemas.
1Donde (i)
∆IT 0 denota la variación relativa de la magnitud Xi : ∆xit
xi0
8.6. ANEXO: NDICES ESPACIALES 57
Consideremos n variables estadísticas X1 , · · · , Xn , y h zonas, 1,

2,· · · ,h; denotaremos por xij el valor de la i-ésima magnitud en la j-
ésima zona, x.j la suma de todos los efectivos de la j-ésima zona, xi. la
suma de todos los efectivos de la variable Xi y x.. la suma de todos los
valores de las n variables en las h zonas.
Llamamos cociente de localización zonal , de la magnitud xi , al valor:
� �
xij x.j xij xi.
Lij = =
xi. x.. x.j x..
Este cociente expresa el porcentaje que la proporción de efectivos
de esta magnitud en la zona j representa sobre el total de la variable,
en relación con la proporción de efectivos de la zona respecto del total.
Llamamos coeficiente de localización zonal de la variable Xi , en las
diferentes zonas, al valor:
h � �
1 � �� xij x.j ��
CLi = −
2 j=1 � xi. x.. �
Denominamos coeficiente de especialización de una zona j, al valor:
n � �
1 � �� xij xi. ��
CEj =
2 � x.j − x.. �
i=1
Llamamos coeficiente de diversificación de la j-ésima zona al valor:
� 2
( ni=1 xij )
CDj = 1 − �n 2
n i=1 xij
Estos coeficientes toman valores entre cero y uno, indicando su re-
sultado el grado de localización, especialización y diversificación res-
pectivamente.
El valor cero, se corresponde con una localización y especialización
mínima, y con una diversificación máxima; correspondiéndose con el
valor uno los extremos opuestos.
Capítulo 9
Series Temporales
En este capítulo se estudia la evolución de una variable en el tiempo,

pero a diferencia del tema anterior, se considera que el tiempo es la
causa de las variaciones que experimenta la variable observada.
9.1. Planteamiento general

Se denomina serie temporal , cronológica o histórica, a una sucesión
de observaciones numeradas de una característica cuantitativa obser-
vadas en el tiempo.
La variable observada puede ser de tipo flujo o de tipo nivel . En el
caso de un nivel o stock, cada observación se refiere a un instante, y en
el caso de un flujo, la observación se refiere a un período de tiempo.
En general, si denotamos por 1, 2, · · · , T , los períodos o instantes de
tiempo y por Y la variable observada, la sucesión y1 , y2 , · · · , yt , donde
yt es el valor que la variable Y toma en el instante o período t, se
denomina serie temporal. La representación gráfica más usual de las
series temporales es la poligonal que une los pares de un diagrama de
puntos donde en el eje de abscisas representamos el tiempo y en eje de
ordenadas la variable observada.
59
60 9. SERIES TEMPORALES
9.2. Análisis clásico

El análisis clásico de las series temporales, considera a Y como una
variable estadística y trata de explicarla en función del tiempo.
En principio podría plantearse como un modelo general de regresión
Y = f (t).
Sin embargo, consideramos el tiempo desglosado en sus tres pers-
Se consideran pe- pectivas de corto, medio y largo plazo, y se cuantificará el efecto que
ríodos superiores cada uno de estos plazos causa en la evolución de la variable.
a 10 años Llamamos tendencia (o tendencia secular ), que denotamos por T ,
Períodos entre 3 a la línea general a que tiende la serie a largo plazo.
y 5 años Se denominan variaciones cíclicas, que se denotan por c, aquéllas
que experimenta la variable a medio plazo.
Y llamamos variaciones estacionales, que se designan por e, aqué-
llas que se producen en períodos cortos de tiempo (inferiores al año).
Así pues, sustituyendo en la ecuación anterior se tiene:
Y = f (T, c, e)
Cuando el modelo
y como la relación no será exacta, aparecerá también una componente
es multiplicativo,
errática o residual que denotamos por u (a veces también se denomina
la variación es-
componente accidental, y en la práctica es difícilmente cuantificable).
tacional y cíclica
se sustituyen por yi = f (Ti , ci , ei ) + ui
índices de varia-
ción, puesto que La función f podría ser una función arbitraria de sus componentes;
si no las unidades sin embargo, en la práctica suele presentarse de dos formas diferentes:
de la serie apare- ⇒ Modelo aditivo: f (T, c, e) = T + c + e
cerían elevadas al ⇒ Modelo multiplicativo: f (T, c, e) = T Ic Ie
cubo con lo que, generalmente, el comportamiento de la variable viene dado
por:
(9.2.1) y i = T i + c i + e i + ui
o bien
(9.2.2) yi = Ti Ici Iei + ui
Los métodos empleados para la determinación de algunas compo-
nentes que intervienen en la serie, dependerán de la hipótesis que se
haga sobre el comportamiento de la misma.
9.3. Métodos para el cálculo de la tendencia

Los métodos más utilizados para obtener la línea de tendencia son:
9.3. MéTODOS PARA EL CáLCULO DE LA TENDENCIA 61
Método gráfico de los puntos medios. Este método se basa en

la representación gráfica de la serie. Consiste en unir mediante una po-
ligonal las cimas y mediante otra los valles del gráfico; posteriormente,
se trazan las perpendiculares desde las cimas y los valles a la poligonal
contraria, y se construye la línea que une los puntos medios de esas
perpendiculares, que se considera línea de tendencia de la serie.
A veces se con-
Método de las medias escalonadas. Este método consiste en
sideran períodos
dividir la serie en períodos formados por p ’instantes’ cada uno; sobre
anuales que puede
éstos se calcula la media de los valores de la variable y su valor se asigna
incluir un número
al ’instante’ central del período.
par de instantes.
y1 + y2 + · · · + yp En este caso hay
y 1∗ = dos instantes cen-
p
trales, la media
yp+1 + yp+2 + · · · + y2p móvil se asigna
y 2∗ = a uno de ellos y
p
luego se centra la
La línea que une estos puntos yi∗ se considera la tendencia de la serie calculando
serie. la media de los
dos centrales y
Método de las medias móviles. Se elige un período de 2p + 1 asigándosela al
’instantes’; y se construye una nueva serie Y � de modo que: otro.
yt−p + · · · + yt + · · · + yt+p
yt� = ; ∀t = p + 1, · · · , T − p
2p + 1
Esta nueva serie es un alisamiento de la serie original; y se considera
que con estas medias se eliminan las otras componentes, con lo que la
resultante será la tendencia de la original.
Esta nuevo método representa una evolución sobre los anteriores,
puesto que se va calculando una media continua que suaviza la serie.
Sin embargo, este método pondera de igual forma los valores próximos
al centro que los valores más extremos del intervalo. Pueden definirse
otros métodos en esta misma línea, llamados alisados, que ponderan
más los valores próximos al actual y esa ponderación va a disminuir en
la medida en la que nos alejamos de ese período.
Método analítico del ajuste. Este método consiste en realizar

un ajuste por mínimos cuadrados. Eligiendo un modelo de función ’sua-
ve’ (lineal, exponencial, logístico, ...) quedarán eliminadas las restantes
variaciones y por tanto la función obtenida será la línea de tendencia.
62 9. SERIES TEMPORALES
9.4. Índices de variación estacional. Desestacionalización

La variación estacional se obtiene eliminando de la serie original las
restantes variaciones.
Para ello agrupamos las variaciones cíclicas y la tendencia en una
sola componente, a la que denominamos extraestacional (en ella no
figuran las variaciones estacionales), y se denota por Et .
Para calcular la componente extraestacional, es necesario incluir al-
gunas hipótesis acerca del comportamiento de la componente residual.
Los métodos que comúnmente se utilizan son: el de las medias móviles
tomando períodos anuales, y el método del ajuste, considerando como
unidad temporal el año. Una vez calculada la componente extraesta-
cional, su eliminación se realiza por diferencia o por cociente de la serie
original, según que el modelo sea aditivo o multiplicativo.
De la tabla resultante, se eliminan las variaciones residuales o errá-
ticas calculando la media de cada estación a lo largo de los años.
Una vez concluidas las etapas anteriores, las cantidades obtenidas
corresponden únicamente a las variaciones estacionales de la serie. Es-
tas variaciones se recogen en términos absolutos, por lo que general-
mente se calculan unos indicadores de las influencias relativas de cada
estación a los que se denomina índices de variación estacional .
Los índices de variación estacional son índices simples que, como
valor de referencia, generalmente, toman la media de las variaciones
estacionales.
Llamamos desestacionalización al proceso mediante el cual elimi-
namos las variaciones estacionales de la serie original. El método segui-
do para desestacionalizar una serie depende del modelo que siga ésta;
cuando la hipótesis es multiplicativa, se divide la serie original entre
los índices de variación estacional (expresados en tantos por uno); si el
modelo que sigue es aditivo, se le resta a la serie original las variaciones
estacionales.
9.5. Variaciones cíclicas

La cuantificación de la componente cíclica es la que presenta un
mayor grado de dificultad. Los métodos que suelen seguirse para su
estudio son:
Método del ciclo medio. Consiste en suponer que existe una

regularidad en el movimiento cíclico; con lo cual, formando una serie
de épocas mensuales, podemos obtener la elongación y longitud medias
para cada una de ellas, y así cuantificar la influencia del ciclo en cada
período.
9.6. INTRODUCCIóN A LA PREDICCIóN (II) 63
Método de los residuos. Este procedimiento consiste en deter-

minar un valor denominado ’residuo’ formado por la eliminación sobre
el dato bruto de las variaciones estacionales y erráticas.
Por tanto, el residuo quedará integrado por la tendencia y el ciclo,
esto es: (denotamos el residuo en el período i por di ):
di = Ti + Ci o di = Ti Ici
En muchos estudios, en vez de aislar el ciclo, se considera el efec-
to conjunto del ciclo y la tendencia como un todo. Pero si queremos
obtener un índice de variación cíclica, dependiendo del tipo de modelo
se obtienen en el caso multiplicativo despejando y en el caso aditivo
como:
di − Ti
Ici =
Ti
9.6. Introducción a la predicción (II)
Cuando se realizan predicciones, se utiliza el método del ajuste,
pues tal y como se indicó en su momento, esto nos permite acompañar
la previsión de un cierto margen de error y de un determinado grado
de seguridad.
La previsión para un período t∗ , será el valor representativo de ese
período, y que en el caso de las series temporales coincide con el valor
de tendencia en t∗ .
Sin embargo, cuando se trabaja con este tipo de series, es posible
afinar más las predicciones teniendo en cuenta las variaciones estacio-
nales y las variaciones cíclicas, a las que puede estar sujeto el período
para el que se hace la previsión.
Los métodos a seguir para conseguir este afinamiento en la esti-
mación, dependerán del tipo de problemas y de la previsión de que
se trate. Por ejemplo, uno de estos procedimientos consistiría en reali-
zar la estimación sobre la serie desestacionalizada para posteriormente
introducir el efecto de la componente estacional.
Parte 2
Cálculo de probabilidades
Capítulo 10
Introducción a la probabilidad
El estudio de la probabilidad se puede abordar desde tres ópticas

diferentes: concepto y significado de la probabilidad, su cuantificación
numérica, y el cálculo de probabilidades.
Por lo que se refiere al primer aspecto: concepto y significado de la
probabilidad, existen numerosas concepciones sobre su interpretación,
distinguiéndose dos escuelas: la objetivista y la subjetivista (estos pun-
tos se tratarán en la siguiente sección).
La cuantificación numérica de la probabilidad es un campo no re-
suelto satisfactoriamente y muy ligado a otra rama de la matemática:
la combinatoria. Este es un tema que no vamos a tratar en este libro.
Finalmente, el cálculo de probabilidades, aunque quizás con un tí-
tulo algo engañoso porque no se refiere al modo de calcular probabi-
lidades, sino a un tratamiento formal de las mismas partiendo de un
conjunto de axiomas que caracterizan la probabilidad, trata de la mo-
delización de los fenómenos aleatorios más usuales. Es este aspecto de
las probabilidades el que fundamenta la inferencia estadística (tercera
parte de este manual) y al cual nos vamos a referir.
10.1. Definiciones de probabilidad

Como ya se ha comentado anteriormente, son muchas las inter-
pretaciones que se pueden hacer sobre el término ’probabilidad’ que
fundamentalmente se agrupan en torno a dos concepciones: la objetiva
y la subjetiva.
La probabilidad es una medida con recorrido continuo entre lo co-
nocido y lo desconocido, y según que la probabilidad trate de sustituir
a los términos genéricos de indeterminado o de dudoso surgen las con-
cepciones objetivas y subjetivas, respectivamente
Para formalizar las definiciones anteriores, debemos de introducir
algunas nociones previas.
Toda ciencia parte de ciertos conceptos no definibles, en la teoría
de la probabilidad, éstos son los de experimento y resultado.
67
68 10. INTRODUCCIóN A LA PROBABILIDAD
Un experimento se dice aleatorio, si depende del azar. Hasta aquí,

este concepto es asumido por las dos tendencias; sin embargo la concep-
ción objetiva reduce los experimentos aleatorios a aquéllos que pueden
repetirse de forma indefinida.
Cada una de las repeticiones del experimento se denomina prueba.
Al conjunto de resultados o casos posibles se denomina espacio
muestral o espacio de resultados, y se designa por E.
Cada uno de los elementos del espacio E, se llama suceso elemental
Al conjunto formado por uno o más sucesos elementales se le deno-
mina suceso 1.
Los casos que forman un suceso A, se llaman favorables.
Ahora ya estamos en condiciones de definir algunas de estas con-
cepciones:
Probabilidad objetiva.
⇒ Concepción de Laplace o clásica.
Se define la probabilidad clásica de un suceso A como el co-
ciente entre el número de casos favorables y el de casos posibles.
El principal inconveniente que presenta esta definición es
que implícitamente establece la hipótesis de que los casos posi-
bles lo son igualmente.
⇒ Concepción frecuencialista.
Se define la probabilidad del suceso A, como el valor en
torno al cual tiende a estabilizarse su frecuencia relativa cuando
el número de pruebas es suficientemente grande.
Existe una variante de esta concepción que se basa en el
paso al límite. Se supone que el experimento se puede repetir
hasta el infinito y entonces se define la probabilidad como el
límite de la frecuencia relativa.
El inconveniente más importante de esta interpretación es
que supone la posibilidad de repetir indefinidamente el experi-
mento, lo cual no siempre es posible.
La probabilidad subjetiva.
Esta interpretación define la probabilidad asociada a un suceso A,
como el ’grado de creencia’ asignando a la ocurrencia de este suceso
por un individuo particular. Esta asignación, habitualmente se realiza
mediante un sistema de apuestas con las que medimos nuestra confianza
o creencia. Esta subjetividad en la asignación de probabilidades a un
1Esta definición de suceso es aceptable a un nivel introductorio y encaja en
las aplicaciones más usuales. Sin embargo, para una formalización axiomática esta
definición no es enteramente exacta.
10.3. PROPIEDADES BáSICAS DE LA PROBABILIDAD 69
suceso A, que para dos individuos puede tomar valores diferentes, es

su principal inconveniente.
10.2. Definición axiomática de la probabilidad

La caracterización axiomática de la probabilidad, es una idealiza-
ción matemática en la cual encajan las diferentes interpretaciones de la
probabilidad y que por tanto nos permite desarrollar una teoría común
del cálculo de probabilidades. Las interpretacio-
De nuevo, antes de definir axiomáticamente la probabilidad, debe- nes de la proba-
mos introducir nuevos conceptos: bilidad definidas
⇒ Dado un suceso A, llamamos suceso complementario de A, que en el apartado
denotamos por Ac o Ā. aquél que incluye todos los resultados anterior satisfacen
que no son parte de A. esta axiomática.
⇒ Denominamos suceso seguro, al que está formado por todos los Por ejemplo en la
resultados posibles (coincide con el espacio muestral y se denota concepción clási-
por E). Llamamos suceso imposible o vacío, que denotamos por ca, el número de
∅, al complementario del suceso seguro. casos favorables a
⇒ Dados dos sucesos A y B, denominamos suceso unión, que de- cualquier suceso
notamos por A ∪ B, al suceso formado por todos los sucesos es no negativo, en
elementales que pertenecen a A o a B (o a ambos). el suceso seguro
⇒ Llamamos suceso intersección que designamos por A ∩ B, al casos favorables
suceso formado por los resultados que pertenecen a A y a B. y posibles coin-
⇒ Dos sucesos se dicen incompatibles o disjuntos, si el suceso in- ciden, t los casos
tersección de ambos es vacío. favorables de dos
⇒ Se llama suceso diferencia, que se denota por A − B al suceso sucesos, que no
formado por los resultados de A que no están en B. tienen ninguno
en común, será la
Consideremos un experimento aleatorio, y sea E el espacio muestral o
suma de los casos
de resultados. Denotamos por A la colección de todos los sucesos defi-
favorables de ca-
nidos anteriormente, obtenidos a partir de E. Sobre la clase A podemos
da suceso. Estas
establecer la siguiente definición:
consideraciones
Llamamos probabilidad a una aplicación de conjuntos:
nos conducen a
P : A ∈ A → P (A) ∈ �+ los axiomas ante-
verificando los siguientes axiomas: riores.
1. P (A) ≥ 0, ∀A ∈ A
2. P (E) = 1
3. ∀A, B ∈ A , con A ∩ B = ∅ , ⇒ P (A ∪ B) = P (A) + P (B)
10.3. Propiedades básicas de la probabilidad

A partir de la definición anterior, se obtienen de forma inmediata
las siguientes propiedades:
70 10. INTRODUCCIóN A LA PROBABILIDAD
1. P (Ā) = 1 − P (A)
2. P (∅) = 0
3. Si A ⊆ B ⇒ P (A) ≤ P (B)
4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
5. Si A1 , · · · , An ∈ A, y Ai ∩ Aj = ∅ ∀i �= j, ⇒ P (∪ni=1 Ai ) =
� n
i=1 P (Ai )
10.4. Probabilidad condicionada y sucesos independientes

Dado un suceso B ∈ A tal que P (B) > 0, definimos la probabilidad
de cualquier suceso A condicionado a B, como:
P (A ∩ B)
P (A/B) =
P (B)
Esta definición de probabilidad condicionada satisface la axiomática
anterior.
De igual forma, si P (A) > 0, entonces:
P (A ∩ B)
P (B/A) =
P (A)
de donde:
(10.4.1) P (A ∩ B) = P (A/B)P (B) = P (B/A)P (A)
Se dice que un suceso A es independiente de B si: P (A/B) = P (A)
Por tanto sustituyendo en 10.4.1, se tiene:
P (A ∩ B) = P (A)P (B) = P (B/A)P (A)
de donde P (B/A) = P (B)
Así pues, se tiene que si A es independiente de B entonces también
B es independiente de A, y esto equivale a:
(10.4.2) P (A ∩ B) = P (A)P (B)
Relación a la que se conoce como condición de independencia.
Esta sucesión de
sucesos, también
se denomina sis- 10.5. Teorema de la probabilidad Total y teorema de Bayes
tema completo de Dada una sucesión de sucesos A1 , · · · , An ∈ A, se dice que forman
sucesos una particióndel espacio muestral E, si verifican:
A P (B/Ai ), se le ∪ni=1 Ai = E, P (Ai ) > 0, ∀i = 1, · · · , n, y Ai ∩ Aj = ∅, ∀i �= j
denomina verosi-
A cada uno de los sucesos que componen una partición, se les llama
militud
hipótesis o causa, y a sus probabilidades iniciales o apriori
10.5. TEOREMA DE LA PROBABILIDAD TOTAL Y TEOREMA DE BAYES 71
Teorema de la probabilidad total: Dado un suceso B ∈ A y

una partición A1 , · · · , An de E, la probabilidad de B vienen dada por:
�n
(10.5.1) P (B) = P (B/Ai )P (Ai )
i=1
Teorema de Bayes: Dada una partición de E y un suceso B, con

P (B) > 0, entonces se verifica:
P (B/Ai )P (Ai )
(10.5.2) P (Ai /B) = �n
i=1 P (B/Ai )P (Ai )
El teorema de Bayes, tiene una interpretación muy intuitiva; nos indica
como se altera el sistema de probabilidades iniciales P (A1 ), · · · , P (An )
cuando se dispone de información adicional (se ha realizado una prue-
ba obteniéndose el suceso B), transformándolas en un nuevo sistema
de probabilidad P (A1 /B), · · · , P (An /B), que denominaremos probabi-
lidades a posteriori o finales.
Si consideramos el suceso B como un ’efecto’, los números P (Ai /B)
también podrían interpretarse como: ’La probabilidad de que Ai haya
sido la causa o hipótesis del efecto B’.
Capítulo 11
Variables aleatorias
En el tema anterior, se han iniciado el estudio de la Teoría de la

Probabilidad, que fundamentalmente se ocupa de indicar el grado de
certeza en la ocurrencia o no de un determinado suceso, al realizar un
experimento. Cada experimento aleatorio se presenta con unos resul-
tados que, a veces, pueden cuantificarse numéricamente. Sin embargo,
cuando se describen fenómenos aleatorios de masa, tal probabilidad se
hace indispensable, siendo necesario expresar los resultados mediante
datos cuantitativos.
Por otra parte, el resultado de un experimento aleatorio no está pre-
determinado, sino que depende del azar; por tanto esos datos numéricos
no son constantes sino que son magnitudes aleatorias. Nos dedicamos
en este tema al estudio de tales magnitudes.
11.1. Variables aleatorias. Conceptos generales
Una cantidad variable que expresa el resultado de un experimento
aleatorio, se denomina variable aleatoria o estocástica (v.a.). O bien de
manera más formal:
Definición. Dado un experimento ζ, que tiene un espacio muestral
asociado E, se llama una variable aleatoria 1 a una función X que a
cada elemento w ∈ E le asigna un número real (único) X(w) ∈ �.
Una variable aleatoria estará caracterizada cuando se conozcan los
valores que puede tomar, así como las probabilidades asociadas a los
mismos.
⇒ Probabilidad inducida
Denotamos por P � (X = x), la probabilidad con que la variable alea-
toria X toma un determinado valor x; y por P � (x1 < X ≤ x2 ), la
probabilidad de que X tome un valor cualquiera en el intervalo (x1 , x2 ]
(x1 < X ≤ x2 , es un suceso en el espacio muestral de la variable alea-
toria).
1Esta definición es ambigua y no necesariamente cierta, pues podrían darse
funciones que satisfaciendo lo anterior, no sean variables aleatorias. No obstante,
estas funciones no suelen presentarse en las aplicaciones más comunes.
73
74 11. VARIABLES ALEATORIAS
Sin embargo, la medida de probabilidad se ha definido sobre el

conjunto de sucesos posibles que pueden aparecer al realizarse el expe-
rimento aleatorio y que no tienen porqué coincidir con los valores que
tome la variable aleatoria.
Así pues, será necesario definir esta nueva función de probabilidad
inducida por la variable X, de modo que sea compatible con la medida
La probabilidad
de la probabilidad asociada al experimento.
inducida por un Definición. Sea ζ un experimento aleatorio y E su espacio de muestras.
suceso B, es igual Sea X una variable aleatoria y B un suceso en el espacio de valores de
a la probabilidad la variable, definimos P � (B) como:
del suceso original
que X transforma P � (B) = P � (X ∈ B) = P (x ∈ E|X(w) ∈ B)
en B
En lo sucesivo designaremos por P a ambas probabilidades
11.2. Variables discretas. Función de probabilidad

Definición. Decimos que una variable aleatoria X es discreta cuando
el conjunto de valores que puede tomar es finito o infinito numerable.
Sea {x1 , · · · , xn , · · · } el conjunto de valores posibles que puede to-
mar la variable X; a cada resultado posible xi le asociamos un número
P (X = xi ) = P (xi ) = pi que llamaremos probabilidad de xi . De este
modo al conjunto de valores, se le asocia un sistema de probabilidades
{p1 , · · · , pn , · · · } que deben satisfacer:
�
pi ≥ 0 , ∀i ; pi = 1
i
La función P que a cada xi le asigna un número P (xi ) se denomina

función de probabilidad o función de cuantía.
11.3. Variables continuas. Función de densidad

Una variable aleatoria se dice que es continua cuando el conjunto de
valores que puede tomar es infinito no numerable; o dicho en otras pa-
labras, cuando entre cada dos valores posibles la variable puede tomar
infinitos valores.
Nota 4. Como los valores no son contables, en las variables continuas
no tiene sentido hablar del i-ésimo valor; ni tampoco de la probabilidad
de un determinado valor xi , pues la probabilidad de un punto aislado
será cero.
11.3. VARIABLES CONTINUAS. FUNCIóN DE DENSIDAD 75
Definición. Una variable aleatoria, se dice que es absolutamente con-

tinua si existe una función f definida sobre el conjunto de valores de la
variable, que satisface:
1. f´ (x) > 0, ∀x
∞
2. −∞ f (x)dx = 1
3. ∀a, b ∈ � | − ∞ < a < b < ∞ , entonces:
ˆ b
(11.3.1) P (a < X ≤ b) = f (x)dx
a
Nota 5. Supongamos que la variable x toma valores en el intervalo

(a, b). No podemos numerar los puntos de este intervalo, pero si podría-
mos dividirlo en una sucesión numerable de subintervalos I1 , · · · , In , · · ·
con amplitudes h1 , · · · , hn , · · · .
Supongamos que el i-ésimo intervalo Ii , es de la forma: [x, x + h).

Podemos preguntarnos ¿Cual es la probabilidad de que X tome valores
en ese intervalo?
A partir de 11.3.1, esta probabilidad viene dada por: Este resultado
ˆ x+h es derivado del
P (x ≤ X < x + h) = f (x)dx = hf (y) teorema del valor
x medio del cálculo
donde y es un valor intermedio del intervalo [x, x + h) diferencial
Despejando se tiene:
P (x ≤ X < x + h)
f (y) = )
h
donde el cociente de la derecha representa la densidad de probabilidad
asociada al intervalo [x, x + h).
Tomando el límite cuando h → 0, se obtiene:
Sería ’aproxi-
P (x ≤ X < x + h) madamente’ la
f (x) = lı́m
h→0 h densidad del in-
que intuitivamente se puede interpretar como la densidad de proba- tervalo infinite-
bilidad asociada al punto x. Así pues, f asociaría a cada punto x su simal [x, x + h)
densidad f (x), por lo que se denomina función de densidad . cuando h → 0.
Nota 6. En lo sucesivo cuando nos refiramos a variables continuas,

nos limitaremos a las absolutamente continuas; aunque en un abuso de
lenguaje las denominaremos simplemente continuas.
11.4. Función de distribución. Propiedades

La medida de probabilidad es una función de conjunto y resulta
poco manejable para su tratamiento matemático.
Vamos a definir una función de punto, a partir de la cual puede
obtenerse la probabilidad de cualquier intervalo (a, b] y que solvente
los problemas planteados por ésta.
Para ello, consideremos para cada x, los sucesos de la forma (X ≤
x), (aquel subconjunto A ⊂ E tal que al aplicarle x a cada elemento
de A se obtiene un valor menor o igual que x). Estos sucesos, así como
sus probabilidades (P (X ≤ x)), vienen determinados por el valor de x.
Definición. Llamamos función de distribución, (f.d.) de la variable
aleatoria X, que designamos por F , a aquella función que a cada x le
asigna el valor:
(11.4.1) F (x) = P (X ≤ x)
Nota 7. Si consideramos dos números reales cualesquiera a y b, tal
que a < b; entonces el suceso (X ≤ b) puede expresarse como la unión
de dos sucesos disjuntos:
(X ≤ b) = (X ≤ a) ∪ (a < X ≤ b)
por tanto tomando probabilidades, obtendremos:
P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b)
de donde sustituyendo y despejando, se tiene:
La probabilidad (11.4.2) P (a < X ≤ b) = F (b) − F (a)

de que la variable
tome cualquier Propiedades:
valor finito es 1 1. La función de distribución es acumulativa, por tanto,
y la de que no
tome ninguno es x1 ≤ x2 ⇒ F (x1 ) ≤ F (x2 )
0
2. F (+∞) = lı́mx→∞ F (x) = 1
3. F (−∞) = lı́mx→−∞ F (x) = 0
4. F es continua a la derecha.
Para calcular la función de distribución debemos distinguir si la variable
X es discreta o continua.
⇒ Función de distribución en el caso discreto
11.5. ESPERANZA MATEMáTICA. PROPIEDADES 77
Si X es una variable aleatoria discreta, entonces:

�
(11.4.3) F (x) = P (X ≤ x) = P (xi )
xi ≤x
Nota 8. La función de distribución en el caso discreto es discontinua,

donde el número de saltos viene indicado por el número de valores que
toma la variable, el salto que se produce en cada punto es igual a la
masa de probabilidad de ese valor, y entre cada dos valores consecutivos
la función es constante.
Nota 9. Conocida la función de distribución podemos calcular la ley
de probabilidad, puesto que:
(11.4.4) P (X = xi ) = F (xi ) − F (xi−1 )
⇒ Función de distribución en el caso continuo
Si X es una variable aleatoria continua, su función de distribución viene
dada por:
ˆ x
(11.4.5) F (x) = P (X ≤ x) = P (−∞ < X ≤ x) = f (x)dx
−∞
Nota 10. En línea con la nota anterior, conocida la función de distri-

Podría definirse
bución podemos obtener la función de densidad como:
una v.a. conti-
dF (x) nua como aquella
f (x) =
dx cuya f.d. es conti-
Su representación gráfica es una línea creciente y continua nua
11.5. Esperanza matemática. Propiedades

Cuando un experimento aleatorio se realiza un determinado número
de veces, se tiene una variable estadística y podemos calcular su media
aritmética. Cuando el experimento aún no se ha realizado, se tiene
una variable aleatoria y el homólogo a ese valor central se denomina
esperanza matemática o valor esperado de la variable.
El cálculo de la esperanza matemática depende del tipo de variable:
⇒ Caso discreto: Sea X una v.a. discreta que puede tomar un
conjunto de valores x1 , · · · , xn , · · · con probabilidades p1 , · · · , pn , · · ·,
se define el valor esperado de esta variable, que se denota por
E(X), como el valor de la expresión:
∞
�
(11.5.1) E(X) = xi P (xi )
i=1
⇒ Caso continuo: Sea X una v.a. continua y sea f (x) su función

de densidad. Se define la esperanza matemática como el valor
de la expresión:
ˆ ∞
(11.5.2) E(X) = xf (x)dx
−∞
Nota 11. Estas expresiones no siempre existen, la esperanza será in-

determinada cuando la serie o la integral no sean convergentes.
Nota 12. Si consideramos una función g de la variable aleatoria X,
g(X), su esperanza matemática viene dada por:
 �∞
 i=1 g(xi )P (xi ) Caso discreto
E(g(X)) = ´
 ∞ g(x)f (x)dx Caso continuo
−∞
Propiedades: Sean a y b dos números reales cualesquiera y X e

Y dos variables aleatorias, se verifica:
1. E(aX) = aE(X)
2. E(X + b) = E(X) + b
3. E(aX + b) = aE(X) + b
4. E(X + Y ) = E(X) + E(Y )
11.6. Varianza. Propiedades

Definición. Llamamos varianza de una variable aleatoria X, que de-
notamos por V ar(X) o σX
2
, al valor (si existe) de la expresión:
(11.6.1) 2
V ar(X) = σX = E (X − E(X))2
Como el cálculo de la esperanza depende del tipo de variable (dis-
creta o continua), para la varianza se tendrá:
⇒ Caso discreto
�∞
V ar(X) = (xi − E(X))2
i=1
⇒ Caso continuo
ˆ ∞
V ar(X) = (x − E(X))2 f (x)dx
−∞
Desarrollando el último miembro de la expresión 11.6.1, se tiene:
� � � �
(11.6.2) V ar(X) = E X 2 − 2XE(X) + E(X)2 = E X 2 − E(X)2
Esta expresión nos proporciona una fórmula útil para calcular la
varianza.
11.7. ANEXO: MOMENTOS DE UNA DISTRIBUCIóN 79
Propiedades: Sean a y b dos números reales cualesquiera, se veri-

fica:
1. V ar(X + b) = V ar(X)
2. V ar(aX) = a2 V ar(X)
3. V ar(aX + b) = a2 V ar(X)
11.7. ANEXO: Momentos de una distribución
Dada una v.a. X se define el momento no centrado de orden r, que
denotamos por αr , al valor (si existe) de la expresión:
αr = E(X r )
Sus fórmulas de cálculo vienen dadas por:
⇒ Caso discreto:
�∞
αr = xri P (xi )
i=1
⇒ Caso continuo:
ˆ ∞
αr = xr f (x)dx
−∞
Se define el momento centrado de orden r, que designamos por µr , como
el valor (si existe) de la expresión:
µr = E (X − E(X))r
Su cálculo viene dado por:
⇒ Caso discreto:
�∞
µr = (xi − E(X))r P (xi )
i=1
⇒ Caso continuo:
ˆ ∞
µr = (x − E(X))r f (x)dx
−∞
Capítulo 12
Distribuciones notables
En Estadística Descriptiva, al conjunto de valores que toma una

variable con sus correspondientes frecuencias se denomina distribución
de frecuencias. Cuando trabajamos con variables aleatorias, el conjun-
to de valores que puede tomar esta variable con sus probabilidades
correspondientes, se denomina distribución de probabilidad .
En principio cada variable aleatoria lleva asociada su distribución Estos parámetros
de probabilidad; sin embargo, muchas de estas distribuciones presen- van asociados a
tarán entre si una gran similitud, pudiendo encuadrarlas dentro de las variables, y
determinados modelos probabilísticos. Estos modelos corresponden a generalmente se
idealizaciones matemáticas de experimentos empíricos. corresponden con
Cada modelo está formado por una familia de funciones de distri- la esperanza y la
bución que dependen de uno o más parámetros. El conocimiento de varianza
estos parámetros determinará la distribución de una variable concreta.
En este tema, se estudian algunos de los modelos probabilísticos
que más se emplean en la práctica.
12.1. Distribución binomial

El modelo binomial corresponde a variables discretas, y su esquema
es el siguiente:
1. Consideremos un experimento aleatorio del cual se realizan n

pruebas.
2. En cada prueba, observamos si se verifica o no un determinado
suceso A. La aparición de este suceso lo identificamos como
éxito y a su complementario como fracaso.
3. La probabilidad de éxito p, (p = P (A)), se mantiene constante
a lo largo de las n pruebas.
4. Cada prueba del experimento es independiente de las demás
La variable aleatoria X que nos indica el número de éxitos que aparecen

en n pruebas, se denomina binomial.
81
82 12. DISTRIBUCIONES NOTABLES
La variable X puede tomar los valores 0, 1, · · · , n; y su ley de pro-

babilidad viene dada por:
� �
n k n−k
(12.1.1) P (X = k) = p q
k
donde q representa la probabilidad de fracaso q = P (Ā), q = 1 − p
Esta función de probabilidad viene determinada por dos paráme-
tros: n y p; conocidos éstos, se puede calcular P (X = k), ∀k =
0, 1, · · · , n.
La distribución binomial se representa por: B(n, p).
Función de distribución:

Más adelante se � 0 si x < 0
[x] �n� k n−k
construye un test F (x) = p q si 0 ≤ x < n
 k=0 k
que nos permiti- 1 si x ≥ n
rá contrastar la
Características: E(X) = np ; V ar(X) = npq
bondad de estos
Ajuste: Para aproximar una distribución empírica por una bino-
ajustes.
mial, se procede de la siguiente forma: calculamos la media aritmética
La tabla recoge de la distribución empírica y se identifica con la esperanza matemática
una selección de de la variable teórica. A partir de aquí se obtiene el valor de p, pues n
valores; y a pesar es conocido (tamaño poblacional). Una vez calculados los parámetros,
de las recomenda- queda especificada la distribución binomial que mejor se ajusta a la
ciones de interpo- empírica.
lar o aproximar, Utilización de tablas: Esta ley se encuentra tabulada en el cuadro
en la actualidad, 12.1, para un número de pruebas comprendido entre 1 y 8 y para ciertos
cualquier hoja de valores de p entre 0,05 y 0,5. Para obtener la probabilidad de obtener
cálculo o progra- k éxitos cuando n y p figuran en la tabla, se localiza el grupo de filas
ma informático correspondiente a ese n, se fija la fila x en ese grupo y se obtiene la
de Estadística probabilidad en la columna con cabecera p.
permiten obtener si p > 0, 5, entonces permutamos éxitos y fracasos y buscamos en
la probabilidad de la fila n − x el valor correspondiente a 1 − p.
forma exacta. Si p o q no figuran en la tabla, sería necesario interpolar. Si n es
mayor que 8, veremos en los siguientes apartados, que la distribución
binomial puede aproximarse por otras distribuciones.
Actualmente cualquier programa informático de Estadística nos
permiten calcular las probabilidades de la mayoría de los modelos pro-
babilísticos; por este motivo, el valor de las tablas ya no está tanto en
facilitar la probabilidad como en darnos una visión de cómo evolucio-
nan las probabilidades cuando alteramos el valor de los parámetros o
de los valores.
12.2. DISTRIBUCIóN DE POISSON 83
12.2. Distribución de Poisson

El modelo de Poisson también se denomina de los ’sucesos raros’,
porque frecuentemente se aplica a variables aleatorias distribuidas en
el tiempo (o en el espacio) que hacen referencia a sucesos cuya proba-
bilidad de acaecimiento es muy pequeña.
Las hipótesis que se suponen en este modelo son los siguientes:
1. Los sucesos que ocurren en un intervalo de tiempo son indepen-
dientes de los que ocurren en cualquier otro intervalo de tiempo,
e independientemente de como se elija el intervalo.
2. En un período determinado de tiempo, se conoce el número
medio de veces que ocurre este suceso.
3. En un intervalo pequeño de tiempo, la probabilidad de que dos
o más sucesos se presenten es ’casi despreciable’.
En estos supuestos, la variable que nos indica el número de veces que
aparece el suceso en un intervalo de tiempo, se dice que sigue una
distribución de Poisson.
Los valores que puede tomar esta variable son: 0, 1, · · · , x, · · · y su
función de probabilidad es:
λx
(12.2.1) P (X = x) = e−λ
x!
Esta distribución depende del parámetro λ y suele denotarse por:
P(λ).
Aproximación: La distribución binomial converge a la distribu-
ción de Poisson cuando n → ∞, p → 0 y np tiende a estabilizarse en
torno a un valor λ.
Se considera que la aproximación es buena cuando n ≥ 30, p <
0, 1 y np < 5.
�
0 si x < 0
F (x) = �[x] −λ λk
k=0 e k!
si x ≥ 0
Características: E(X) = λ, V ar(X) = λ.
Ajuste: Dada una distribución empírica, la ley de Poisson que me-
jor se ajusta a ella, es aquélla cuyo parámetro coincide con la media
de los datos observados. Como en el caso de la ley binomial, lo que se
hace es identificar la media aritmética de la distribución observada con
el valor esperado de la variable teórica.
Utilización de tablas: El cuadro 12.2 recoge la ley de probabilidad
de la distribución de Poisson para distintos valores de λ.
La columna correspondiente a un determinado x, nos indica la pro-

babilidad con que la variable aleatoria toma ese valor para los distintos
valores del parámetro.
Como en el caso de la binomial y de los modelos que siguen, re-
comendamos el uso de la tabla para tener una visión de la evolución
de las probabilidades, pero para calcular probabilidades recomendamos
una hoja de cálculo o un calculador de probabilidad.
12.3. Distribución normal
El adjetivo ’normal’ que califica a este modelo, al que también se
denomina distribución de Gauss, hace referencia a la frecuencia con
que esta ley se emplea en Estadística; y no solamente porque muchas
variables continuas sigan esta distribución, sino porque también se pue-
de utilizar para aproximar diversas distribuciones discretas, y más aún
porque su relación con el teorema central del límite constituye la base
de la inferencia estadística clásica.
Se dice que una variable aleatoria X sigue una distribución normal
de parámetros µ y σ, si su función de densidad viene dada por:
1 1 x−µ 2
(12.3.1) f (x) = √ e− 2 ( σ ) ; −∞ < x < ∞
2πσ
Nota 13. Como caso particular cuando µ = 0 y σ = 1, se obtiene la
normal tipificada o reducida, que ya fue introducida en el capítulo 4.1.
La familia de distribuciones normales, se denota por N (µ, σ).
ˆ x
1 1 x−µ 2
(12.3.2) F (x) = √ e− 2 ( σ ) dx
−∞ 2πσ
Características: E(X) = µ ; V ar(X) = σ 2
Como se puede observar, la esperanza y la varianza determinan los
parámetros de esta distribución.
Características gráficas: La curva normal es positiva y tiene for-
ma de campana, es simétrica respecto a la recta x = µ, en el cual se
alcanza su valor máximo, siendo éste: f (µ) = √2πσ 1
de donde se obtie-
ne que su apuntamiento es inversamente proporcional a la desviación
típica.
Las colas son asintóticas al eje de abscisas no llegando a alcanzar
el valor cero.
Propiedades:
1. Si X sigue una distribución N (µ, σ), y a, b ∈ �, entonces Y =
aX + b sigue una ley normal con parámetros: N (aµ + b, aσ).
Como consecuencia de esta propiedad, se sigue:
12.3. DISTRIBUCIóN NORMAL 85
2. Si X tiene una distribución N (µ, σ), entonces x−µσ

sigue una
distribución N (0, 1)
Ajuste: La ley normal que mejor se ajusta a una distribución empírica
es aquélla cuyos parámetros vienen dados por la media y la desviación
típica de los datos observados.
Aproximaciones: La distribución binomial de parámetros n y p,
converge cuando n → ∞, a la distribución normal de parámetros µ = La probabilidad
√ de las colas de
np y σ = npq.
Se considera buena la aproximación cuando p < 0, 1 y np > 5 o una normal es-
bien cuando p > 0, 1 aunque np < 5. tándar a partir de
Utilización de tablas: en el cuadro 12.3, aparece tabulada la 3,69 es práctica-
función de distribución de la ley normal reducida, para valores de x mente desprecia-
comprendidos entre 0 y 3,69. ble.
La probabilidad acumulada de un valor de x, con dos dígitos deci-
males, comprendidos entre los límites anteriores, se recoge en la tabla
en la intersección de la fila correspondiente a ese número y el primer
dígito decimal y la columna donde figura el segundo dígito.
Si el número tiene más de dos decimales, será necesario interpolar
(o recurrir a un calculador de probabilidad).
Si x es un número menor que cero, entonces su probabilidad acu-
mulada se calcula mediante la relación:
F (x) = 1 − F (−x)
La probabilidad de que X ≥ x, se obtiene como:
P (X ≥ x) = 1 − F (x)
Si x sigue una distribución N (µ, σ), entonces:
� �
X −µ x−µ
P (X ≤ x) = P ≤
σ σ
y la variable X−µ
σ
≈ N (0, 1), con lo cual podemos obtener esta
probabilidad buscando en las tablas la correspondiente al número x−µ
σ
Cuadro 1. Distribución binomial
n k/p 0, 05 0, 10 0, 15 0, 20 0, 25 0, 30 0, 35 0, 40 0, 45 0, 50
1 0 0, 9500 0, 9000 0, 8500 0, 8000 0, 7500 0, 7000 0, 6500 0, 6000 0, 5500 0, 5000
1 0, 0500 0, 1000 0, 1500 0, 2000 0, 2500 0, 3000 0, 3500 0, 4000 0, 4500 0, 5000
2 0 0, 9025 0, 8100 0, 7225 0, 6400 0, 5625 0, 4900 0, 4225 0, 3600 0, 3025 0, 2500
1 0, 0950 0, 1800 0, 2550 0, 3200 0, 3750 0, 4200 0, 4550 0, 4800 0, 4950 0, 5000
2 0, 0025 0, 0100 0, 0225 0, 0400 0, 0625 0, 0900 0, 1225 0, 1600 0, 2025 0, 2500
3 0 0, 8574 0, 7290 0, 6141 0, 5120 0, 4219 0, 3430 0, 2746 0, 2160 0, 1664 0, 1250
1 0, 1354 0, 2430 0, 3251 0, 3840 0, 4219 0, 4410 0, 4436 0, 4320 0, 4084 0, 3750
2 0, 0071 0, 0270 0, 0574 0, 0960 0, 1406 0, 1890 0, 2389 0, 2880 0, 3341 0, 3750
3 0, 0001 0, 0010 0, 0034 0, 0080 0, 0156 0, 0270 0, 0429 0, 0640 0, 0911 0, 1250
4 0 0, 8145 0, 6561 0, 5220 0, 4096 0, 3164 0, 2401 0, 1785 0, 1296 0, 0915 0, 0625
1 0, 1715 0, 2916 0, 3685 0, 4096 0, 4219 0, 4116 0, 3845 0, 3456 0, 2995 0, 2500
2 0, 0135 0, 0486 0, 0975 0, 1536 0, 2109 0, 2646 0, 3105 0, 3456 0, 3675 0, 3750
3 0, 0005 0, 0036 0, 0115 0, 0256 0, 0469 0, 0756 0, 1115 0, 1536 0, 2005 0, 2500
4 0, 0000 0, 0001 0, 0005 0, 0016 0, 0039 0, 0081 0, 0150 0, 0256 0, 0410 0, 0625
5 0 0, 7738 0, 5905 0, 4437 0, 3277 0, 2373 0, 1681 0, 1160 0, 0778 0, 0503 0, 0313
1 0, 2036 0, 3281 0, 3915 0, 4096 0, 3955 0, 3602 0, 3124 0, 2592 0, 2059 0, 1563
2 0, 0214 0, 0729 0, 1382 0, 2048 0, 2637 0, 3087 0, 3364 0, 3456 0, 3369 0, 3125
3 0, 0011 0, 0081 0, 0244 0, 0512 0, 0879 0, 1323 0, 1811 0, 2304 0, 2757 0, 3125
4 0, 0000 0, 0004 0, 0022 0, 0064 0, 0146 0, 0284 0, 0488 0, 0768 0, 1128 0, 1563
5 0, 0000 0, 0000 0, 0001 0, 0003 0, 0010 0, 0024 0, 0053 0, 0102 0, 0185 0, 0313
6 0 0, 7351 0, 5314 0, 3771 0, 2621 0, 1780 0, 1176 0, 0754 0, 0467 0, 0277 0, 0156
1 0, 2321 0, 3543 0, 3993 0, 3932 0, 3560 0, 3025 0, 2437 0, 1866 0, 1359 0, 0938
2 0, 0305 0, 0984 0, 1762 0, 2458 0, 2966 0, 3241 0, 3280 0, 3110 0, 2780 0, 2344
3 0, 0021 0, 0146 0, 0415 0, 0819 0, 1318 0, 1852 0, 2355 0, 2765 0, 3032 0, 3125
4 0, 0001 0, 0012 0, 0055 0, 0154 0, 0330 0, 0595 0, 0951 0, 1382 0, 1861 0, 2344
5 0, 0000 0, 0001 0, 0004 0, 0015 0, 0044 0, 0102 0, 0205 0, 0369 0, 0609 0, 0938
6 0, 0000 0, 0000 0, 0000 0, 0001 0, 0002 0, 0007 0, 0018 0, 0041 0, 0083 0, 0156
7 0 0, 6983 0, 4783 0, 3206 0, 2097 0, 1335 0, 0824 0, 0490 0, 0280 0, 0152 0, 0078
1 0, 2573 0, 3720 0, 3960 0, 3670 0, 3115 0, 2471 0, 1848 0, 1306 0, 0872 0, 0547
2 0, 0406 0, 1240 0, 2097 0, 2753 0, 3115 0, 3177 0, 2985 0, 2613 0, 2140 0, 1641
3 0, 0036 0, 0230 0, 0617 0, 1147 0, 1730 0, 2269 0, 2679 0, 2903 0, 2918 0, 2734
4 0, 0002 0, 0026 0, 0109 0, 0287 0, 0577 0, 0972 0, 1442 0, 1935 0, 2388 0, 2734
5 0, 0000 0, 0002 0, 0012 0, 0043 0, 0115 0, 0250 0, 0466 0, 0774 0, 1172 0, 1641
6 0, 0000 0, 0000 0, 0001 0, 0004 0, 0013 0, 0036 0, 0084 0, 0172 0, 0320 0, 0547
7 0, 0000 0, 0000 0, 0000 0, 0000 0, 0001 0, 0002 0, 0006 0, 0016 0, 0037 0, 0078
8 0 0, 6634 0, 4305 0, 2725 0, 1678 0, 1001 0, 0576 0, 0319 0, 0168 0, 0084 0, 0039
1 0, 2793 0, 3826 0, 3847 0, 3355 0, 2670 0, 1977 0, 1373 0, 0896 0, 0548 0, 0313
2 0, 0515 0, 1488 0, 2376 0, 2936 0, 3115 0, 2965 0, 2587 0, 2090 0, 1569 0, 1094
3 0, 0054 0, 0331 0, 0839 0, 1468 0, 2076 0, 2541 0, 2786 0, 2787 0, 2568 0, 2188
4 0, 0004 0, 0046 0, 0185 0, 0459 0, 0865 0, 1361 0, 1875 0, 2322 0, 2627 0, 2734
5 0, 0000 0, 0004 0, 0026 0, 0092 0, 0231 0, 0467 0, 0808 0, 1239 0, 1719 0, 2188
6 0, 0000 0, 0000 0, 0002 0, 0011 0, 0038 0, 0100 0, 0217 0, 0413 0, 0703 0, 1094
7 0, 0000 0, 0000 0, 0000 0, 0001 0, 0004 0, 0012 0, 0033 0, 0079 0, 0164 0, 0313
8 0, 0000 0, 0000 0, 0000 0, 0000 0, 0000 0, 0001 0, 0002 0, 0007 0, 0017 0, 0039
12.3. DISTRIBUCIóN NORMAL 87
Cuadro 2. Distribución de Poisson
λ/x 0 1 2 3 4 5 6 7 8 9
0, 1 0, 9048 0, 0905 0, 0045 0, 0002
0, 2 0, 8187 0, 1637 0, 0164 0, 0011 0, 0001
0, 3 0, 7408 0, 2222 0, 0333 0, 0033 0, 0003
0, 4 0, 6703 0, 2681 0, 0536 0, 0072 0, 0007 0, 0001
0, 5 0, 6065 0, 3033 0, 0758 0, 0126 0, 0016 0, 0002
0, 6 0, 5488 0, 3293 0, 0988 0, 0198 0, 0030 0, 0004
0, 7 0, 4966 0, 3476 0, 1217 0, 0284 0, 0050 0, 0007 0, 0001
0, 8 0, 4493 0, 3595 0, 1438 0, 0383 0, 0077 0, 0012 0, 0002
0, 9 0, 4066 0, 3659 0, 1647 0, 0494 0, 0111 0, 0020 0, 0003
1 0, 3679 0, 3679 0, 1839 0, 0613 0, 0153 0, 0031 0, 0005 0, 0001
1, 1 0, 3329 0, 3662 0, 2014 0, 0738 0, 0203 0, 0045 0, 0008 0, 0001
1, 2 0, 3012 0, 3614 0, 2169 0, 0867 0, 0260 0, 0062 0, 0012 0, 0002
1, 3 0, 2725 0, 3543 0, 2303 0, 0998 0, 0324 0, 0084 0, 0018 0, 0003 0, 0001
1, 4 0, 2466 0, 3452 0, 2417 0, 1128 0, 0395 0, 0111 0, 0026 0, 0005 0, 0001
1, 5 0, 2231 0, 3347 0, 2510 0, 1255 0, 0471 0, 0141 0, 0035 0, 0008 0, 0001
1, 6 0, 2019 0, 3230 0, 2584 0, 1378 0, 0551 0, 0176 0, 0047 0, 0011 0, 0002
1, 7 0, 1827 0, 3106 0, 2640 0, 1496 0, 0636 0, 0216 0, 0061 0, 0015 0, 0003 0, 0001
1, 8 0, 1653 0, 2975 0, 2678 0, 1607 0, 0723 0, 0260 0, 0078 0, 0020 0, 0005 0, 0001
1, 9 0, 1496 0, 2842 0, 2700 0, 1710 0, 0812 0, 0309 0, 0098 0, 0027 0, 0006 0, 0001
2 0, 1353 0, 2707 0, 2707 0, 1804 0, 0902 0, 0361 0, 0120 0, 0034 0, 0009 0, 0002
2, 1 0, 1225 0, 2572 0, 2700 0, 1890 0, 0992 0, 0417 0, 0146 0, 0044 0, 0011 0, 0003
2, 2 0, 1108 0, 2438 0, 2681 0, 1966 0, 1082 0, 0476 0, 0174 0, 0055 0, 0015 0, 0004
2, 3 0, 1003 0, 2306 0, 2652 0, 2033 0, 1169 0, 0538 0, 0206 0, 0068 0, 0019 0, 0005
2, 4 0, 0907 0, 2177 0, 2613 0, 2090 0, 1254 0, 0602 0, 0241 0, 0083 0, 0025 0, 0007
2, 5 0, 0821 0, 2052 0, 2565 0, 2138 0, 1336 0, 0668 0, 0278 0, 0099 0, 0031 0, 0009
2, 6 0, 0743 0, 1931 0, 2510 0, 2176 0, 1414 0, 0735 0, 0319 0, 0118 0, 0038 0, 0011
2, 7 0, 0672 0, 1815 0, 2450 0, 2205 0, 1488 0, 0804 0, 0362 0, 0139 0, 0047 0, 0014
2, 8 0, 0608 0, 1703 0, 2384 0, 2225 0, 1557 0, 0872 0, 0407 0, 0163 0, 0057 0, 0018
2, 9 0, 0550 0, 1596 0, 2314 0, 2237 0, 1622 0, 0940 0, 0455 0, 0188 0, 0068 0, 0022
3 0, 0498 0, 1494 0, 2240 0, 2240 0, 1680 0, 1008 0, 0504 0, 0216 0, 0081 0, 0027
3, 1 0, 0450 0, 1397 0, 2165 0, 2237 0, 1733 0, 1075 0, 0555 0, 0246 0, 0095 0, 0033
3, 2 0, 0408 0, 1304 0, 2087 0, 2226 0, 1781 0, 1140 0, 0608 0, 0278 0, 0111 0, 0040
3, 3 0, 0369 0, 1217 0, 2008 0, 2209 0, 1823 0, 1203 0, 0662 0, 0312 0, 0129 0, 0047
3, 4 0, 0334 0, 1135 0, 1929 0, 2186 0, 1858 0, 1264 0, 0716 0, 0348 0, 0148 0, 0056
3, 6 0, 0273 0, 0984 0, 1771 0, 2125 0, 1912 0, 1377 0, 0826 0, 0425 0, 0191 0, 0076
3, 8 0, 0224 0, 0850 0, 1615 0, 2046 0, 1944 0, 1477 0, 0936 0, 0508 0, 0241 0, 0102
4 0, 0183 0, 0733 0, 1465 0, 1954 0, 1954 0, 1563 0, 1042 0, 0595 0, 0298 0, 0132
5 0, 0067 0, 0337 0, 0842 0, 1404 0, 1755 0, 1755 0, 1462 0, 1044 0, 0653 0, 0363
6 0, 0025 0, 0149 0, 0446 0, 0892 0, 1339 0, 1606 0, 1606 0, 1377 0, 1033 0, 0688
7 0, 0009 0, 0064 0, 0223 0, 0521 0, 0912 0, 1277 0, 1490 0, 1490 0, 1304 0, 1014
8 0, 0003 0, 0027 0, 0107 0, 0286 0, 0573 0, 0916 0, 1221 0, 1396 0, 1396 0, 1241
9 0, 0001 0, 0011 0, 0050 0, 0150 0, 0337 0, 0607 0, 0911 0, 1171 0, 1318 0, 1318
10 0, 0005 0, 0023 0, 0076 0, 0189 0, 0378 0, 0631 0, 0901 0, 1126 0, 1251
Cuadro 3. Distribución normal. N(0,1)
x 0 0, 01 0, 02 0, 03 0, 04 0, 05 0, 06 0, 07 0, 08 0, 09
0 0, 5000 0, 5040 0, 5080 0, 5120 0, 5160 0, 5199 0, 5239 0, 5279 0, 5319 0, 5359
0, 1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753
0, 2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141
0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517
0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879
0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224
0, 6 0, 7257 0, 7291 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549
0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852
0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133
0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389
1 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621
1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830
1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015
1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177
1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319
1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441
1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545
1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633
1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706
1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767
2 0, 9772 0, 9778 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817
2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857
2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890
2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916
2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936
2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952
2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964
2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974
2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981
2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986
3 0, 9987 0, 9987 0, 9987 0, 9988 0, 9988 0, 9989 0, 9989 0, 9989 0, 9990 0, 9990
3, 1 0, 9990 0, 9991 0, 9991 0, 9991 0, 9992 0, 9992 0, 9992 0, 9992 0, 9993 0, 9993
3, 2 0, 9993 0, 9993 0, 9994 0, 9994 0, 9994 0, 9994 0, 9994 0, 9995 0, 9995 0, 9995
3, 3 0, 9995 0, 9995 0, 9995 0, 9996 0, 9996 0, 9996 0, 9996 0, 9996 0, 9996 0, 9997
3, 4 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9998
3, 5 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998
3, 6 0, 9998 0, 9998 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999
Capítulo 13
Variables aleatorias bidimensionales
Hasta ahora hemos limitado nuestro estudio a variables aleatorias

unidimensionales. En este tema vamos a generalizar los conceptos an-
teriores al caso de dos o más dimensiones.
13.1. Variables aleatorias bidimensionales. Conceptos

generales
Consideremos dos variables aleatorias unidimensionales X e Y , lla-
mamos variable aleatoria bidimensional , que denotamos por (X, Y ), a
un vector aleatorio que a cada resultado w ∈ E del experimento asigna
un único par de valores (X(w), Y (w)).
En este caso, el espacio muestral de la variable (o conjunto valores
posibles), será un subconjunto del plano (�2 ).
Diremos que una variable aleatoria bidimensional es discreta, si su
espacio muestral es finito o infinito numerable; y diremos que la variable
es continua, si el conjunto de valores posibles es no numerable.
De la misma forma que ocurría con las variables unidimensionales,
a la variable (X, Y ) le asignaremos una función de probabilidad si esta La función de
es discreta o una función de densidad si es continua, en ambos casos cuantía es una
se le adjetiva de conjunta porque hace referencia a pares (x, y) (donde probabilidad in-
conjuntamente la variable X toma el valor x y la variable Y el valor ducida por la de
y). los sucesos asocia-
Definición. Sea (X, Y ) una variable bidimensional discreta, llamamos dos al experimen-
función de cuantía o de probabilidad conjunta a una función P que a tos aleatorio.
cada par (xi , yj ) le asocia un número P (X = xi , Y = yj ) = P (xi , yj ) =
pij , satisfaciendo las siguientes condiciones:
��
pij ≥ 0, ∀(xi , yj ), y pij = 1
i j podría ocurrir
Para simplificar las notaciones, supongamos que si la variable bi- que una variable
dimensional (X, Y ) es continua, lo son las variables unidimensionales fuese discreta y
X e Y , y supongamos además que X tome sus valores en un inter- otra continua
valo (a, b], (−∞ < a < b < ∞), e Y los toma en un intervalo (c, d],
89
90 13. VARIABLES ALEATORIAS BIDIMENSIONALES
(−∞ < c < d < ∞); entonces la variable bidimensional (X, Y ) tomará
valores en el rectángulo (a, b] × (c, d].
Definición. Llamamos función de densidad conjunta de la variable
(X, Y ), a una función f , que cumple las siguientes condiciones:
f : (x, y) ∈ (a, b] × (c, d] → f (x, y) ∈ �
ˆ bˆ d
f (x, y) ≥ 0, ∀(x, y) ∈ (a, b] × (c, d], f (x, y)dxdy = 1
a c
Definición. Sea (X, Y ) una variable aleatoria bidimensional, definimos

la función de distribución de la variable aleatoria bidimensional , que
denotamos por F, a la función:
F : (x, y) ∈ �2 → F (x, y) = P (X ≤ x, Y ≤ y) ∈ �
Cuando la variable es discreta, su función de distribución puede
calcularse como:
��
F (x, y) = P (xi , yj )
xi ≤x yj ≤y
Si la variable aleatoria bidimensional es continua, la función de

distribución en un punto (x, y), se calcula como:
ˆ x ˆ y
F (x, y) = f (x, y)dxdy
−∞ −∞
13.2. Distribuciones marginales y condicionadas

Como ocurría con las variables estadísticas, dada una v.a. bidimen-
sional podemos obtener la distribución unidimensional de una variable,
bien sin importarnos para nada el comportamiento de la otra variable,
o bien condicionándola a que la otra variable se concrete en (o entre)
determinados valores. Según que siga uno y otro esquema, se tienen las
Los valores de la distribuciones marginales o condicionadas respectivamente.
marginal de X o En temas anteriores, ya hemos comentado que una variable aleatoria
de una condicio- queda especificada cuando se conocen los valores que ésta puede tomar
nada X/yj , son así como las probabilidades asociadas a los mismos. Los valores que
los mismos que pueden tomar las variables unidimensionales son conocidos por saber
los de X los que puede asumir la v.a. bidimensional; por tanto, para obtener las
distribuciones marginales y condicionadas solo nos resta conocer sus
funciones de probabilidad, para lo cual, en ambos casos, tenemos que
distinguir si las variables son discretas o continuas.
13.2. DISTRIBUCIONES MARGINALES Y CONDICIONADAS 91
Distribuciones marginales.
⇒ Variables discretas:
Cuando las variables son discretas, la función de probabilidad marginal
de X, viene dada por:
∞
�
P (xi ) = P (X = xi , Y < ∞) = P (xi , yj )
j=1
De forma análoga, la función de distribución marginal de Y, la defini-

mos como aquella que a cada yj , le asocia el valor:
∞
�
P (yj ) = P (X < ∞, Y = yj ) = P (xi , yj )
i=1
La función de distribución marginal de X se define como:

∞ �
�
FX (x) = lı́m F (x, y) = lı́m P (X ≤ x, Y ≤ y) = P (xi , yj )
y→∞ y→∞
j=1 xi ≤x
Análogamente la función de distribución marginal de Y se obtiene co-

mo:
�∞ �
FY (y) = P (xi , yj )
i=1 yj ≤y
⇒ Variables continuas:
Cuando la variable es continua, definimos las funciones de distribución
marginal de X e Y respectivamente, como sigue:
ˆ ∞ˆ x
FX (x) = lı́m F (x, y) = f (x, y)dxdy
y→∞ −∞ −∞
y:
ˆ ∞ ˆ y
FY (y) = lı́m F (x, y) = f (x, y)dxdy
x→∞ −∞ −∞
Con lo cual las funciones de densidad marginal de X e Y , vienen

dadas respectivamente, por:
ˆ ∞ ˆ ∞
fX (x) = f (x, y)dy ; fY (y) = f (x, y)dx
−∞ −∞
Los sucesos o Distribuciones condicionadas.

valores que con- ⇒ Variables discretas:
dicionan tienen
que tener proba-
Definición. Llamamos función de probabilidad de X condicionada a
bilidad mayor que
Y = yj como aquella función que a cada xi le asigna el valor:
cero, porque de P (xi , yj )
P (xi /yj ) = , P (yj ) > 0
lo contrario no P (yj )
podrían ocurrir ni
condicionar.
De forma semejante, definimos la función de probabilidad de Y condi-
cionada a X = xi , como sigue:
P (xi , yj )
P (yj /xi ) = , P (xi ) > 0
P (xi )
⇒ Variables continuas:
Sea (X, Y ) una variable aleatoria bidimensional continua con función
de densidad conjunta f (x, y), y sean fX (x) y fY (y), las funciones de
densidad marginales de X e Y respectivamente.
Definición. Denominamos función de densidad de X condicionada a
Y = y, a la función:
f (x, y)
f (x/y) = , fY (y) > 0
fY (y)
De manera análoga, la función de densidad de Y condicionada a
X = x, se define como:
f (x, y)
f (y/x) = , fX (x) > 0
fX (x)
Nota 14. Siguiendo un esquema similar, podíamos definir las distri-
buciones condicionadas a que una variable tome valores en un deter-
minado intervalo, en vez de un valor concreto.
13.3. Variables aleatorias independientes
Intuitivamente, dos variables serán independientes, cuando los re-
sultados de una no influyen para nada en los resultados de la otra.
De un modo más formal, dada una variable bidimensional (X, Y ),
diremos que la variable X es independiente de Y , cuando la distribución
de probabilidad de X no depende de los valores que tome la variable
Y ; o lo que es equivalente, cuando la distribución de X condicionada
a cualquier valor de Y es siempre la misma y por tanto igual a su
distribución marginal. Esto es:
P (xi /yj ) = P (xi ) , ∀i, j
13.4. MOMENTOS BIDIMENSIONALES 93
si las variables son discretas, y:

f (x, y) = fX (x)
cuando las variables son continuas.
De forma análoga, diremos que la variable Y es independiente de
X, si se verifica:
P (yj /xi ) = P (yj ) , ∀i, j
en el caso discreto, y: Dada la simetría
f (x, y) = fY (y) de las condiciones
de independencia,
en el caso continuo.
si X es inde-
Nota 15. La variable X es independiente con Y , si y solo si se verifica: pendiente de Y ,
⇒ Si las variables son discretas: P (xi , yj ) = P (xi )P (yj ), ∀i, j entonces Y lo es
⇒ Si las variables son continuas: f (x, y)fX (x)fy (y), ∀(x, y) con X.
Nota 16. Estas relaciones se conocen como condiciones de indepen-

dencia y son equivalentes a las definiciones anteriores.
13.4. Momentos bidimensionales

Cuando trabajamos con variables bidimensionales, al igual que ocu-
rría en Estadística Descriptiva, los momentos irán acompañados de un
doble subíndice, para distinguir el orden al que nos referimos en cada
variable.
Consideremos una v.a. bidimensional (X, Y ).
Definición. Llamamos momento no centrado (o centrado respecto al
origen) de orden (r, s) (r en la variable X y s en la variable Y ), que
denotamos por αrs , al valor de la expresión:
αrs = E (xr y s )
Definición. Denominamos momento centrad o (respecto a la esperan-
za) de orden (r, s), que designamos por µrs , al valor de la expresión:
µrs = E [(X − E(X))r (Y − E(Y ))s ]
Los momentos no centrados de orden (1,0) y (0,1), nos indican la
esperanza matemática de X e Y .
Los momentos centrados de orden (2,0) y (0,2) representan la va-
rianza de X e Y respectivamente.
Un momento especialmente importante es el de orden (1,1) (cen-
trado), que denominamos covarianza, y denotamos por Cov(X, Y ) o
σXY , su expresión viene dada por:
(13.4.1) Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))]
que desarrollando el segundo miembro, también podemos expresar co-

mo:
(13.4.2) Cov(X, Y ) = E(XY ) − E(X)E(Y )
Este momento nos indica la relación lineal entre dos variables.
Nota 17. Otra medida importante para indicar el grado de dependen-
cia lineal entre dos variables es el coeficiente de correlación lineal , que
denotamos por rXY , y se define como:
σXY
(13.4.3) rXY =
σX σY
13.5. Propiedades relacionadas con variables
independientes
Presentamos en este apartado algunas propiedades en relación con
temas precedentes, que adquieren gran simplicidad cuando las variables
son independientes.
⇒ El valor esperado del producto de dos variables aleatorias inde-
pendientes es el producto de sus valores esperados: E(XY ) =
E(X)E(Y )
⇒ Si dos variables son independientes, su covarianza es cero (y
La binomial es
por consiguiente su coeficiente de correlación lineal también es
reproductiva en el cero)
parámetro n. ⇒ La varianza de la suma de dos variables independientes es la
La distribución suma de las varianzas: V ar(X + Y ) = V ar(X) + V ar(Y )
de Poisson es ⇒ Un modelo es reproductivo cuando dos variables siguen ese mo-
reproductiva en delo y son independientes, la suma de esas variables también
su parámetro λ.
siguen el modelo (donde alguno de sus parámetros recoge la
La distribución
operación suma)
normal es repro-
⇒ Si X e Y son variables aleatorias independientes, que siguen una
ductiva en media
distribución binomial X ≈ B(n, p) y Y ≈ B(m, p), entonces:
y varianza.
X + Y ≈ B(n + m, p).
⇒ Si X e Y son variables aleatorias independientes, que siguen una
distribución de Poisson: X ≈ P(λX ), e Y ≈ P(λY ), entonces
X + Y ≈ P(λX + λY )
⇒ Si X e Y son variables aleatorias independientes, que siguen
una distribución normal X ≈ N (µX , σX ) e Y ≈ N (µY , σY ),
entonces:
� � �
2
X + Y ≈ N µX + µY , σ X + σY2
⇒ Si X e Y siguen una distribución√N (0, 1) y son independientes

entonces la suma X + Y ≈ N (0, 2)
13.5. PROPIEDADES RELACIONADAS CON VARIABLES INDEPENDIENTES95
Nota 18. Todas las definiciones y propiedades anteriores pueden ex-

tenderse sin dificultad a variables aleatorias n-dimensionales.
Capítulo 14
Teoremas límites
En este tema, se presentan algunos teoremas límites que ponen de

manifiesto el importante papel de la distribución normal dentro de la
inferencia estadística.
14.1. Desigualdad de Chebyshev

Incluimos en este apartado la desigualdad de Chebyshev que tiene
gran transcendencia en desarrollos posteriores, y aunque aparentemente
no está relacionada con las propiedades límites, se utiliza en algunas
de sus demostraciones.
Consideremos una v.a. X con esperanza y varianza finitas, entonces
para cualquier k ∈ �+ (es decir k > 0), se verifica:
1
(14.1.1) P (|X − E(X)| ≥ kσ) ≤ 2
k
Esta relación es conocida como desigualdad de Chebyshev .
Nota 19. Podrían darse expresiones más generales de esta desigual- Cuanto mayor sea
dad; sin embargo, hemos optado por ésta por ser la que presenta más el distanciamien-
posibilidades de interpretación y una mayor aplicación. to menor será
Nota 20. La desigualdad de Chebyshev nos indica que la probabilidad la probabilidad
de que una variable aleatoria X se aleje de su valor esperado más que de que ocurran
k veces su desviación típica es menor que k12 . valores.
Nota 21. Podemos observar que no se ha hecho referencia a la distri-

bución de la variable aleatoria X; si dispusiéramos de esa información
adicional a este respecto, sería posible mejorar la desigualdad anterior.
14.2. Ley de los grandes números

La ley de los grandes números justifica la concepción frecuencialista
de la probabilidad, pues muestra cómo la frecuencia relativa de un
suceso se aproxima a su probabilidad, cuando el número de pruebas es
grande.
Ley de los grandes números: Supongamos que se realizan n
pruebas independientes de un experimento aleatorio y se observa el
97
98 14. TEOREMAS LíMITES
número de veces que aparece un suceso A; denotemos por f (A) la

frecuencia relativa de este suceso, y sea p la probabilidad del mismo,
p = P (A) (se supone que es constante a lo largo de las n pruebas).
En estas condiciones, se verifica que ∀� ∈ �+ , (� > 0):
pq
P (|f (A) − p| ≥ �) ≤ 2
n�
siendo q la probabilidad del complementario, q = 1 − p
Nota 22. Tomando límites en la desigualdad anterior, se obtiene:
lı́m P (|f (A) − p| ≥ �) = 0 , ∀� > 0
n→∞
En este sentido decimos que la frecuencias relativa ’converge’ a la

probabilidad.
Nota 23. Las condiciones del enunciado de esta desigualdad, nos re-
cuerdan a la distribución binomial, pues se realizan n pruebas inde-
pendientes, la probabilidad de éxito en cada prueba es la misma y se
observa el número de éxitos; si denotamos por X la v.a. que nos indica
este número, entonces X ≈ B(n, p) y f (A) = Xn .
Tomando � = n1 , la ley de los grandes número puede expresarse
como: ��
�X � 1
�
P � − p� ≥ � ≤ npq = V ar(X)
n n
Que nos indica que ’la probabilidad de que el número medio de
éxitos, se aleje de la probabilidad de éxito más de n1 es menor que la
varianza de la variable’.
Nota 24. Pueden obtenerse otras formulaciones de esta ley.
Si asociamos a cada prueba una variable aleatoria que nos indique el
éxito o fracaso de la misma, al repetir n veces el experimento obtenemos
una sucesión de v.a. X1 , · · · , Xn ; como cada prueba es independiente
de las demás y corresponden todas al mismo experimento, las variables
X1 , · · · , Xn son independientes y están idénticamente distribuidas. Su-
pongamos E(Xi ) = µ, y V ar(Xi ) = σ 2 .
El número de éxito en las n pruebas será: X = X1 + · · · + Xn
Consideremos la media aritmética de estas variables, que a su vez
es una v.a.:
X1 + · · · + Xn
X̄ =
n
sus valores característicos son:
σ2
E(X̄) = µ , y V ar(X̄) =
n
14.3. TEOREMA CENTRAL DEL LíMITE 99
Aplicando la desigualdad de Chebyshev a esta variable ’media arit-

mética’. se tiene:
� �
� � σ 1
P �X̄ − µ� ≥ k √ ≤ 2
n k
Eligiendo � = k √σn , resulta:
�� σ2
P �X̄ − µ� ≥ � ≤ 2
�n
Tomando límites cuando n → ∞, se obtiene:
��
lı́m P �X̄ − µ� ≥ � = 0
n→∞
Esta formulación de la ley de los grandes números nos indica que
la media aritmética se aproxima a la esperanza matemática, cuando se
realiza un gran número de pruebas.
14.3. Teorema central del límite
Existen diversos enunciados de este teorema, siendo uno de los más
simples el que a continuación se expone:
Teorema central del límite (TCL).- Sean X1 , · · · , Xn , n varia-
bles aleatorias independientes e idénticamente distribuidas (v.a. iid.),
con esperanza E(Xi ) = µ y varianza
�n V ar(Xi ) = σ . Consideremos la
2
suma de éstas variables: Sn = i=1 Xi , (E(Sn ) = nµ y V ar(Sn ) =

nσ 2 ), se tiene:
� √ � Sn − nµ
Sn → N nµ, σ n ⇔ √ → N (0, 1)
n→∞ σ n n→∞
Nota 25. Puede generalizarse este teorema sustituyendo el supuesto de
’idéntica distribución’, que es una hipótesis fuerte, por otros supuestos
más débiles que usualmente se satisfacen en la práctica; y de nuevo
se tendría que la variable suma converge a una distribución normal,
con esperanza la suma de las esperanzas y varianza la suma de las
varianzas.
Nota 26. Este teorema es sumamente útil, y puede interpretarse en
los siguientes términos: ’Si tenemos un efecto motivado por múltiples TCL. El efecto de
causas, donde la influencia de cada una de ellas en la variación total numerosas peque-
es insignificante, (estas son las condiciones generales que se establecen ñas causas sigue
en la nota anterior), entonces el efecto global sigue una distribución una distribución
normal’. normal
Parte 3
Inferencia Estadística
Si fuera conocida, Introducción
se podría realizar
Como ya se observó en la parte de Estadística Descriptiva, la Infe-
un análisis des-
rencia Estadística consiste en inferir o inducir los resultados obtenidos
criptivo sobre ella
para una muestra a conjuntos más numerosos.
y por tanto no
El esquema general que se sigue en la inferencia Estadística es el
tendría sentido la
siguiente: Se parte de una población que se supone desconocida total o
inferencia (salvo
parcialmente. Hablamos de un desconocimiento parcial cuando la po-
que el coste de
blación es conocida a excepción de ciertas características o parámetros
observación de
de los cuales depende y que una vez determinados, la población resulta
aquella sea ex-
totalmente conocida.
cesivo para los
Para disminuir el desconocimiento de la población se selecciona una
medios disponi-
muestra representativa de la misma. Conocer una muestra es conocer
bles)
una parte de la población que nos proporciona cierta información sobre
ésta.
Para esta muestra podemos obtener los parámetros característicos
que eran desconocidos en la población.
El proceso de inducción consiste en suponer que el resto de la po-
blación se comporta como esta parte ya conocida y por lo tanto, se
podrían extrapolar las conclusiones obtenidas a todo el colectivo.
En todo proceso inductivo se juzga el todo por las partes; por lo que
nunca podremos tener la seguridad absoluta de que el comportamiento
de la población sea el proyectado a través de la muestra, salvo cuando
la parte coincida con el todo.
Por lo tanto, la inferencia lleva consigo determinados grados de
seguridad o verosimilitud, y estos grados son cuantificados en términos
de probabilidad.
Hasta el momento, hemos estudiado dos campos muy diferenciados
dentro de la Estadística, el citado de la Estadística Descriptiva y una
introducción a la Teoría de la Probabilidad y los modelos probabilísti-
cos. La Inferencia estadística lleva implícito una combinación de ambos
procesos.
Capítulo 15
Es un abuso de
Teoría de muestras y distribuciones muestrales lenguaje; pero a
cada unidad de la
Consideremos una población E, que podemos identificar con una población, X le
v.a. X; conocidos los valores que ésta puede tomar y su función de asigna un valor,
distribución, la población queda determinada. Por lo general, esta po- por tanto nos da
blación o variable resulta desconocida parcial o totalmente. Nuestro lo mismo conocer
objetivo es llegar a la determinación, aunque sea probabilístico, de esa las unidades que
población o variable. los valores.
Para ello, una solución sería observar todos los elementos de la
población (todos los valores que va tomando la variable); sin embargo,
tal solución, generalmente no es satisfactoria; problemas de tiempo,
costo o simplemente por tratarse de poblaciones infinitas o procesos
destructivos, nos impide llevarla a cabo.
La otra alternativa que nos queda es seleccionar una parte de esa
población, una muestra, analizarla por métodos descriptivos y extra-
polar sus resultados. Con los resultados de esta muestra, podremos
contrastar o estimar el modelo probabilístico de la población y/o los
parámetros que la especifican.
Cuando la muestra es aleatoria, los valores se eligen al azar, inter-
viene la probabilidad y ello nos permite que las estimaciones anteriores
no sean gratuitas, sino que las podemos acompañar de ciertos grados
de confianza, expresados en términos probabilísticos.
15.1. Teoría de muestras Antes de seleccio-

La técnica por la que se selecciona una muestra, se denomina método nar una muestra
de muestreo. concreta, el valor
Cuando el método de muestreo es aleatorio, la muestra que se puede de X1 es aleato-
obtener también lo es. La muestra será una variable aleatoria cuya rio, y el de X2 ,
dimensión coincidirá con el tamaño de la misma. ...
Dedicamos este primer apartado a obtener la distribución de una
muestra genérica de tamaño n.
Para ello, supongamos en primer lugar, que tomamos una muestra
aleatoria de tamaño uno de la variable X, esto es, elegimos al azar
un elemento de la población. El elemento que se puede obtener de la
población, en principio (antes de seleccionarlo), es uno cualquiera de
103
104 15. TEORíA DE MUESTRAS Y DISTRIBUCIONES MUESTRALES
los valores que puede tomar la variable aleatoria, y por tanto toma los
mismos valores que X y tiene su misma función de distribución.
Denotemos por F ∗ la función de distribución de la muestra y por
F la de X. Cuando la muestra es de tamaño uno, se tiene:
Reposición. Se F ∗ (x) = F (x) ; ∀x ∈ �
selecciona un
Supongamos ahora, que vamos a tomar una muestra de tamaño dos,
elemento, y se
es decir, vamos a elegir dos elementos aleatorios de esa población.
repone de nuevo
Si la población es infinita, o bien finita pero se sigue un método de
a la población
muestreo aleatorio con reposición , las extracciones no guardan ninguna
relación entre si, son independientes y por tanto podemos considerar
cada extracción como una prueba del experimento independiente de
las demás. En lo que sigue, siempre que no se indique lo contrario,
entenderemos que se trata de poblaciones infinitas.
Entonces seleccionar una muestra aleatoria de tamaño dos, será
equivalente a observar una variable aleatoria bidimensional (X1 , X2 ) o
dos variables unidimensionales X1 y X2 independientes entre si, por
tanto la función de distribución de la muestra, F ∗ (x1 , x2 ), puede ex-
presarse como:
F ∗ (x1 , x2 ) = F (x1 )F (x2 )
Por otra parte, como cada una de las componentes tiene la misma
distribución que la variable original X, se tiene:
F ∗ (x1 , x2 ) = F (x)F (x) = (F (x))2
Consideremos ahora el caso general de una muestra de tamaño n;
el conjunto de todos los valores posibles que pueden aparecer en esta
muestra, corresponde al espacio muestra de una variable n-dimensional
(X1 , · · · , Xn ) donde cada componente es independiente de las demás y
están idénticamente distribuidas que la variable X (la muestra genérica
de tamaño n, está definida en En y toma valores en �n ). entonces la
función de distribución de la muestra puede expresarse como:
El conocimiento F ∗ (x1 , · · · , xn ) = F (x1 ) · · · F (xn ) = (F (x))n

de los primeros
Nota 27. A veces, esta última igualdad no aparece porque las variables
resultados con-
no están idénticamente distribuidas que X.
diciona el de los
Si las especificaciones del método de selección nos condujesen a
siguientes
variables dependientes ; entonces la primera igualdad tampoco se ve-
rificaría, expresándose en tal caso la función de distribución de esta
muestra como:
F ∗ (x1 , · · · , xn ) = F (x1 )F ∗ (x2 /x1 ) · · · F (xn /x1 , · · · , xn−1 )
15.2. SELECCIóN DE MUESTRAS Y NúMEROS ALEATORIO 105
Nota 28. Se podrían desarrollar las relaciones anteriores considerando

la función de probabilidad o de densidad (según que la variable X fuese
discreta o continua) en vez de la función de distribución; las expresiones
obtenidas serían del mismo tipo.
La distribución de la muestra queda especificada por el conocimien-
to de X.
15.2. Selección de muestras y números aleatorio

Teóricamente, hemos resuelto el problema de obtener la distribución
de una muestra aleatoria genérica. Nos ocupamos ahora de responder
al interrogante: ¿Cómo seleccionar los elementos de la población para
que la muestra sea realmente aleatoria? Este método coin-
Como ya se ha señalado en la sección anterior, vamos a referirnos a cide con el de
poblaciones infinitas, o si ésta es finita, consideramos que se utiliza el poblaciones infini-
método de muestreo aleatorio con reposición . Más adelante, se dedicará tas
un tema especial al estudio de otros tipos de muestreo en poblaciones
finitas.
Quizás la primera respuesta que se nos ocurriría al interrogante
anterior, sería la de realizar un sorteo o lotería; esto es, numerar o eti-
quetar con algún distintivo los elementos de la población, y realizar un
sorteo entre éstos. Los elementos correspondientes a los números selec-
cionados en el sorteo, serán elegidos para formar parte de la muestra.
Sin embargo, este método puede resultar pesado y poco efectivo
cuando la población consta de muchos individuos o es infinita.
Una técnica que se puede resultar útil en tales casos, consiste en
emplear una tabla de números aleatorios.
Estas tablas se elaboran por algún proceso informático que asigna a
cada número del 0 al 9, las mismas probabilidades de selección; o desde
el 00 al 99, cuando usamos cifras de dos dígitos, y así sucesivamente.
Generalmente, se utilizan tablas de 4 o 6 dígitos, pudiendo realizar
con ellos diferentes combinaciones (tomar un sólo dígito si el tamaño
de la población no es mayor que diez, dos si no es mayor que cien, y
así sucesivamente).
A las tablas de números aleatorios se les practica una serie de con-
trastes con el fin de observar que no existe correlación entre sus com-
ponentes y así asegurar la aleatoriedad más pura de su cifras.
Si dispusiéramos de una tabla de números aleatorios, la selección
de la muestra podría realizarse como sigue:
’Se numeran todos los elementos de la población con arreglo a un
determinado criterio; vamos a la tabla de cifras aleatorias y elegimos al
azar una determinada fila y columna, que nos proporcionan la primera
Algunos progra- cifra aleatoria; a partir de ahí continuamos seleccionando números con-
mas informáti- secutivos, bien por filas o por columnas, hasta que el número de cifras
cos facilitan di- seleccionadas coincida con el tamaño de la muestra. En este momento,
rectamente una volvemos a la población y elegimos para formar parte de la muestra,
muestra, sin que las unidades cuya numeración coincida con las cifras seleccionadas’.
tengamos que La aleatoriedad de la muestra elegida, viene garantizada por la de
preocuparnos por la tabla de números aleatorios.
este tema Otro problema que se nos puede plantear es el siguiente: ¿Cómo
podemos numerar los elementos de una población si ésta es infinita?
Aunque en mu-
Evidentemente cuando la población es infinita, no podemos emplear
chos casos son
la técnica anterior, ni aún en el caso de que ésta sea numerable (¿cuán-
pseudo-aleatorios
tos dígitos utilizar?, su número dependerá del tamaño de la población).
En estos casos, lo que suele hacerse es sustituir esta población por
otra finita, construida artificialmente (Método de Monte Carlo), que
tenga aproximadamente la misma composición que la población original
y muestrear en esta segunda población.
15.3. Estadísticos y estimaciones

Cuando una muestra aleatoria de tamaño n, se concreta en unos
Un estadístico es valores determinados (x1 , · · · , xn ), tenemos una distribución de fre-
una función de cuencias, y podemos emplear métodos descriptivos para obtener sus
v.a. y por tanto, características x̄, Sx , · · · .
una nueva v.a. Pero aún cuando la muestra no se ha concretado, podemos esta-
Una estimación blecer las fórmulas matemáticas, que aplicadas a las magnitudes alea-
es un número, un torias de la muestra, nos proporcionan sus características muestrales
valor particular genéricas; a estas expresiones matemáticas es a las que denominamos
del estadístico. estadísticos.
De un modo más preciso: sea (X1 , · · · , Xn ) una muestra aleatoria
de tamaño n de una variable X. Llamamos estadístico a una función:
T : (X1 , · · · , Xn ) ∈ En → T (X1 , · · · , Xn ) ∈ �
Para una muestra particular, (x1 , · · · , xn ), se obtiene un valor pun-

tual de T , t = T (x1 , · · · , xn ), al que denominamos una estimación.
Nota 29. Son estadísticos importantes:

⇒ La media aritmética de una muestra aleatoria
X1 + · · · + Xn
X̄ = = T (X1 , · · · , Xn ) = T
n
15.4. DISTRIBUCIONES UTILIZADAS EN PRUEBAS 107
⇒ La varianza muestral
� n � �2
2 X i − X̄
SX = =T
i=1
n
Nota 30. Si la población depende de determinados parámetros desco-
nocidos (µ, σ 2 , · · · ) y se emplean los estadísticos (X̄, SX
2
, · · · ) que nos
permiten estimar los parámetros a partir de una muestra aleatoria, a
tales estadísticos, generalmente, se les denomina estimadores.
Nota 31. Si utilizamos la media y la varianza muestrales, para estimar
la esperanza y la varianza poblacionales, podemos observar cómo exis-
te un paralelismo entre sus ecuaciones; se ha trasladado la definición
del parámetro a la muestra. A esta técnica de obtener estimadores,
se la denomina método de analogía, y a los estadísticos construidos,
estimadores analógicos.
15.4. Distribuciones utilizadas en pruebas

Nos proponemos en este apartado, estudiar algunos modelos proba-
bilísticos, que si bien no aparecen en la realidad de una forma empírica,
surgen asociados a ciertos estadísticos.
⇒ Distribución χ2 de Pearson
Consideremos n variables aleatorias, independientes y con distribución
N (0, 1). Y sea Y la suma de sus cuadrados:
Y = X12 + · · · + Xn2
Entonces, la variable aleatoria Y , sigue un modelo muy conocido
que se denomina χ2 de Pearson con n grados de libertad (que denotamos
χ2n ).
Nota 32. De una forma intuitiva, los grados de libertad (g.l.), nos
indican el número de valores que pueden ser elegidos arbitrariamente,
para que se mantenga la identidad de una expresión particular.
En la expresión anterior, fijados n valores de esas n + 1 variables,
automáticamente quedaría determinado el valor desconocido.
La variable aleatoria Y , toma valores no negativos, y su función de La distribución
densidad viene dada por: de χ2n queda de-
terminada por
e− y2
n
−1
f (y) = y n
2 ; ∀y > 0 el conocimien-
2 2 Γ( n2 ) to de los grados
� � √ de libertad de la
donde Γ(n) = (n − 1)!, Γ 12 = π y n es el número de grados de
libertad. variable.
Si consideramos una muestra aleatoria de tamaño �n, (X1 , · · · , Xn ),

extraída de una población N (0, 1), la variable Y = ni=1 Xi2 sigue una
distribución χ2n con n grados de libertad. Los g.l. vienen indicados por
el tamaño de la muestra.
Características: E(Y ) = n ; V ar(Y ) = 2n
Nota 33. Si la variable Y sigue una �distribución χ2n , y n es suficien-
√ �
temente grande, entonces la variable 2Y , sigue aproximadamente
�√ �
una distribución N 2n − 1, 1 .
Utilización de tablas: El cuadro 15.4, recoge la distribución χ2n
de Pearson para algunos valores seleccionados y diferentes grados de
libertad.
La utilización de esta tabla es diferente a las expuestas para otros
modelos. Por filas, vienen indicados los grados de libertad de la variable
y por columnas, el valor de la función de distribución de los números
que figuran en la tabla.
El empleo usual de esta tabla, consiste en localizar el valor de la
variable, que corresponde a cierto grado de libertad y a determinado
nivel de confianza (una probabilidad).
15.5. Distribución t de Student

Consideremos dos variables aleatorias X e Y , independientes y tal
que X se distribuye normalmente, X ≈ N (0, 1) e Y sigue una distri-
bución χ2 con n g.l.. Entonces la variable aleatoria:
X
(15.5.1) T =�
Y
n
Se distribuye según un modelo conocido como t de Student con n

grados de libertad.
La función de densidad de esta variable aleatoria, es:
� �� n+1
2 − 2
1 Γ n+1 t
f (t) = √ �2� 1 + ; −∞ < t < ∞
nπ Γ n2 n
Características: E(T ) = 0 ; V ar(T ) = g(n) (La varianza es una
función que depende del número de grados de libertad).
Nota 34. Cuando el número de grados de libertad tiene a infinito, la
distribución t ’converge’ (en el sentido del tema anterior) a la distribu-
ción normal reducida.
15.5. DISTRIBUCIóN t DE STUDENT 109
Cuadro 1. Distribución χn2
g.l./p 0, 01 0, 025 0, 05 0, 1 0, 9 0, 95 0, 975 0, 99

1 0, 0002 0, 0010 0, 0039 0, 0158 2, 7055 3, 8415 5, 0239 6, 6349
2 0, 0201 0, 0506 0, 1026 0, 2107 4, 6052 5, 9915 7, 3778 9, 2103
3 0, 1148 0, 2158 0, 3518 0, 5844 6, 2514 7, 8147 9, 3484 11, 3449
4 0, 2971 0, 4844 0, 7107 1, 0636 7, 7794 9, 4877 11, 1433 13, 2767
5 0, 5543 0, 8312 1, 1455 1, 6103 9, 2364 11, 0705 12, 8325 15, 0863
6 0, 8721 1, 2373 1, 6354 2, 2041 10, 6446 12, 5916 14, 4494 16, 8119
7 1, 2390 1, 6899 2, 1673 2, 8331 12, 0170 14, 0671 16, 0128 18, 4753
8 1, 6465 2, 1797 2, 7326 3, 4895 13, 3616 15, 5073 17, 5345 20, 0902
9 2, 0879 2, 7004 3, 3251 4, 1682 14, 6837 16, 9190 19, 0228 21, 6660
10 2, 5582 3, 2470 3, 9403 4, 8652 15, 9872 18, 3070 20, 4832 23, 2093
11 3, 0535 3, 8157 4, 5748 5, 5778 17, 2750 19, 6751 21, 9200 24, 7250
12 3, 5706 4, 4038 5, 2260 6, 3038 18, 5493 21, 0261 23, 3367 26, 2170
13 4, 1069 5, 0088 5, 8919 7, 0415 19, 8119 22, 3620 24, 7356 27, 6882
14 4, 6604 5, 6287 6, 5706 7, 7895 21, 0641 23, 6848 26, 1189 29, 1412
15 5, 2293 6, 2621 7, 2609 8, 5468 22, 3071 24, 9958 27, 4884 30, 5779
16 5, 8122 6, 9077 7, 9616 9, 3122 23, 5418 26, 2962 28, 8454 31, 9999
17 6, 4078 7, 5642 8, 6718 10, 0852 24, 7690 27, 5871 30, 1910 33, 4087
18 7, 0149 8, 2307 9, 3905 10, 8649 25, 9894 28, 8693 31, 5264 34, 8053
19 7, 6327 8, 9065 10, 1170 11, 6509 27, 2036 30, 1435 32, 8523 36, 1909
20 8, 2604 9, 5908 10, 8508 12, 4426 28, 4120 31, 4104 34, 1696 37, 5662
21 8, 8972 10, 2829 11, 5913 13, 2396 29, 6151 32, 6706 35, 4789 38, 9322
22 9, 5425 10, 9823 12, 3380 14, 0415 30, 8133 33, 9244 36, 7807 40, 2894
23 10, 1957 11, 6886 13, 0905 14, 8480 32, 0069 35, 1725 38, 0756 41, 6384
24 10, 8564 12, 4012 13, 8484 15, 6587 33, 1962 36, 4150 39, 3641 42, 9798
25 11, 5240 13, 1197 14, 6114 16, 4734 34, 3816 37, 6525 40, 6465 44, 3141
26 12, 1981 13, 8439 15, 3792 17, 2919 35, 5632 38, 8851 41, 9232 45, 6417
27 12, 8785 14, 5734 16, 1514 18, 1139 36, 7412 40, 1133 43, 1945 46, 9629
28 13, 5647 15, 3079 16, 9279 18, 9392 37, 9159 41, 3371 44, 4608 48, 2782
29 14, 2565 16, 0471 17, 7084 19, 7677 39, 0875 42, 5570 45, 7223 49, 5879
30 14, 9535 16, 7908 18, 4927 20, 5992 40, 2560 43, 7730 46, 9792 50, 8922
40 22, 1643 24, 4330 26, 5093 29, 0505 51, 8051 55, 7585 59, 3417 63, 6907
50 29, 7067 32, 3574 34, 7643 37, 6886 63, 1671 67, 5048 71, 4202 76, 1539
60 37, 4849 40, 4817 43, 1880 46, 4589 74, 3970 79, 0819 83, 2977 88, 3794
70 45, 4417 48, 7576 51, 7393 55, 3289 85, 5270 90, 5312 95, 0232 100, 4252
80 53, 5401 57, 1532 60, 3915 64, 2778 96, 5782 101, 8795 106, 6286 112, 3288
90 61, 7541 65, 6466 69, 1260 73, 2911 107, 5650 113, 1453 118, 1359 124, 1163
100 70, 0649 74, 2219 77, 9295 82, 3581 118, 4980 124, 3421 129, 5612 135, 8067
Nota 35. El número de grados de libertad de la variable t coincide con

el de la distribución de χ2 que interviene en su definición, y hemos visto
en una nota precedente, que cuando se toma una muestra aleatoria de
tamaño n de una distribución N (0, 1), el número de grados de libertad
coincide con el tamaño de la muestra.
Entonces, de la nota anterior, deducimos que cuando la muestra

es grande, los estadísticos que siguen la distribución t, pueden apro-
ximarse por una distribución N (0, 1); de ahí que las aplicaciones de
la distribución t se reduzcan a muestras pequeñas, nombre con el cual
también se conoce a esta ley.
Utilización de tablas: El cuadro 15.5 recoge los valores de la
variable t, a partir de los cuales, para ciertos grados de libertad, la
probabilidad acumulada de su cola derecha coincide con determinados
valores seleccionados en la primera fila. Aprovechando la simetría de
esta función, podemos obtener las probabilidades acumuladas de la cola
inferior o de ambas simultáneamente. Aunque indica probabilidades
diferentes, que las de la tabla χ2 , su empleo es muy similar a ésta.
15.6. Algunas distribuciones asociadas al proceso de

muestreo
Hemos observado anteriormente, que un estadístico es una variable
aleatoria y por tanto nos interesa conocer su distribución.
Nos proponemos en este apartado obtener la distribución de algunos
estadísticos de interés (media, varianza y diferencia de medias), para
muestras aleatorias obtenidas de una distribución muestral.
Antes de obtener tales distribuciones, veamos cuáles son los valores
característicos de la media y la varianza muestral, cuando tomamos
una muestra del tamaño n, (X1 , · · · , Xn ) de una v.a. arbitraria X con
esperanza y varianzas finitas µ y σ 2 respectivamente.
⇒ Media aritmética:
Para la media aritmética muestral:
X1 + · · · + Xn
X̄ =
n
2
Sus valores característicos son:E(X̄) = µ ; V ar(X̄) = σn
En efecto:
� �
X1 + · · · + Xn E(X1 ) + · · · + E(Xn )
E(X̄) = E =
n n
y como todas las variables están idénticamente distribuidas que X, se
obtiene: E(Xi ) = E(X), de donde:
� � nE(X)
E X̄ = =µ
n
Para la varianza tenemos:
� �
X1 + · · · + Xn V ar (X1 + · · · + Xn )
V ar(X̄) = V ar =
n n2
15.6. ALGUNAS DISTRIBUCIONES ASOCIADAS AL PROCESO DE MUESTREO
111
Cuadro 2. Distribución tn . Area en una o dos colas
U na cola
g.l./p 0, 001 0, 0025 0, 005 0, 01 0, 025 0, 05 0, 1 0, 25
Dos colas
g.l./p 0, 002 0, 005 0, 01 0, 02 0, 05 0, 1 0, 2 0, 5
1 636, 6192 254, 6466 127, 3213 63, 6567 25, 4517 12, 7062 6, 3138 2, 4142
2 31, 5991 19, 9625 14, 0890 9, 9248 6, 2053 4, 3027 2, 9200 1, 6036
3 12, 9240 9, 4649 7, 4533 5, 8409 4, 1765 3, 1824 2, 3534 1, 4226
4 8, 6103 6, 7583 5, 5976 4, 6041 3, 4954 2, 7764 2, 1318 1, 3444
5 6, 8688 5, 6042 4, 7733 4, 0321 3, 1634 2, 5706 2, 0150 1, 3009
6 5, 9588 4, 9807 4, 3168 3, 7074 2, 9687 2, 4469 1, 9432 1, 2733
7 5, 4079 4, 5946 4, 0293 3, 4995 2, 8412 2, 3646 1, 8946 1, 2543
8 5, 0413 4, 3335 3, 8325 3, 3554 2, 7515 2, 3060 1, 8595 1, 2403
9 4, 7809 4, 1458 3, 6897 3, 2498 2, 6850 2, 2622 1, 8331 1, 2297
10 4, 5869 4, 0045 3, 5814 3, 1693 2, 6338 2, 2281 1, 8125 1, 2213
11 4, 4370 3, 8945 3, 4966 3, 1058 2, 5931 2, 2010 1, 7959 1, 2145
12 4, 3178 3, 8065 3, 4284 3, 0545 2, 5600 2, 1788 1, 7823 1, 2089
13 4, 2208 3, 7345 3, 3725 3, 0123 2, 5326 2, 1604 1, 7709 1, 2041
14 4, 1405 3, 6746 3, 3257 2, 9768 2, 5096 2, 1448 1, 7613 1, 2001
15 4, 0728 3, 6239 3, 2860 2, 9467 2, 4899 2, 1314 1, 7531 1, 1967
16 4, 0150 3, 5805 3, 2520 2, 9208 2, 4729 2, 1199 1, 7459 1, 1937
17 3, 9651 3, 5429 3, 2224 2, 8982 2, 4581 2, 1098 1, 7396 1, 1910
18 3, 9216 3, 5101 3, 1966 2, 8784 2, 4450 2, 1009 1, 7341 1, 1887
19 3, 8834 3, 4812 3, 1737 2, 8609 2, 4334 2, 0930 1, 7291 1, 1866
20 3, 8495 3, 4554 3, 1534 2, 8453 2, 4231 2, 0860 1, 7247 1, 1848
21 3, 8193 3, 4325 3, 1352 2, 8314 2, 4138 2, 0796 1, 7207 1, 1831
22 3, 7921 3, 4118 3, 1188 2, 8188 2, 4055 2, 0739 1, 7171 1, 1815
23 3, 7676 3, 3931 3, 1040 2, 8073 2, 3979 2, 0687 1, 7139 1, 1802
24 3, 7454 3, 3761 3, 0905 2, 7969 2, 3909 2, 0639 1, 7109 1, 1789
25 3, 7251 3, 3606 3, 0782 2, 7874 2, 3846 2, 0595 1, 7081 1, 1777
26 3, 7066 3, 3464 3, 0669 2, 7787 2, 3788 2, 0555 1, 7056 1, 1766
27 3, 6896 3, 3334 3, 0565 2, 7707 2, 3734 2, 0518 1, 7033 1, 1756
28 3, 6739 3, 3214 3, 0469 2, 7633 2, 3685 2, 0484 1, 7011 1, 1747
29 3, 6594 3, 3102 3, 0380 2, 7564 2, 3638 2, 0452 1, 6991 1, 1739
30 3, 6460 3, 2999 3, 0298 2, 7500 2, 3596 2, 0423 1, 6973 1, 1731
40 3, 5510 3, 2266 2, 9712 2, 7045 2, 3289 2, 0211 1, 6839 1, 1673
50 3, 4960 3, 1840 2, 9370 2, 6778 2, 3109 2, 0086 1, 6759 1, 1639
60 3, 4602 3, 1562 2, 9146 2, 6603 2, 2990 2, 0003 1, 6706 1, 1616
70 3, 4350 3, 1366 2, 8987 2, 6479 2, 2906 1, 9944 1, 6669 1, 1600
80 3, 4163 3, 1220 2, 8870 2, 6387 2, 2844 1, 9901 1, 6641 1, 1588
90 3, 4019 3, 1108 2, 8779 2, 6316 2, 2795 1, 9867 1, 6620 1, 1578
100 3, 3905 3, 1018 2, 8707 2, 6259 2, 2757 1, 9840 1, 6602 1, 1571
por ser las variables independientes, se tiene:

V ar(X1 ) + · · · + V ar(Xn )
V ar(X̄) =
n2
y por estar idénticamente distribuidas que X, resulta:

Es inversamente
proporcional a n, nV ar(X) σ2
V ar(X̄) = =
cuando el tama- n2 n
ño aumenta, la
varianza del esti-
Nota 36. La varianza de la media muestral, disminuye con el tamaño
mador disminuye
de la muestra . Aquí aparece uno de los principales problemas en el
diseño de una encuesta: ¿Qué número de entrevistas realizar para ob-
tener una precisión determinada? o ¿Qué precisión tendrá una encuesta
en la que se han realizado n entrevistas? (Una medida de la precisión
viene dada por el inverso de la desviación típica).
⇒ Varianza muestral:
Para la varianza muestral:
�n � �2
2 i=1 Xi − X̄
S =
n
(n−1)σ 2
Se tiene: E(S 2 ) = n
, y
µ4 − µ22 2 (µ4 − 2µ22 ) µ4 − 3µ22
V ar(S 2 ) = − +
n n2 n3
Abordamos ahora el problema de encontrar la distribución de es-
tos estadísticos. Para la media aritmética y la diferencia de medias,
distinguiremos los casos en que la varianza poblacional es conocida o
desconocida.
⇒ Distribución de la media muestral cuando se conoce la
varianza:1
Podemos considerar X̄ como la suma de n variables aleatorias Xn1 , · · · , Xnn
independientes e idénticamente distribuidas con:
� � � � 2
Xi µ Xi σ
E = , y V ar
n n n n2
entonces, aplicando el teorema central del límite, cuando n es grande,
se tiene:
X̄ − µ X̄ − µ √
σ = n → N (0, 1)
√
n
σ n→∞
o, equivalentemente:
σ
(15.6.1) X̄ → N (µ, √ )
n→∞ n
1Para
obtener la distribución de la media o de la diferencia de medias cuando se
conoce la varianza, no es necesario suponer que la población sigue una ley normal.
15.6. ALGUNAS DISTRIBUCIONES ASOCIADAS AL PROCESO DE MUESTREO
113
⇒ Distribución de la diferencia de medias cuando se co-

noce la varianza:
Supongamos ahora que tenemos dos muestras aleatorias independien-
tes de tamaños n y m, (X1 , · · · , Xn ) e (Y1 , · · · , Ym ) de dos poblaciones
X e Y distribuidas normalmente con parámetros (µX , σX ) y (µY , σY )
respectivamente. Y supongamos además que las varianzas son conoci-
das.
En esta situación, teniendo en cuenta la distribución de la media,
sabemos que:
� � � �
σX σY
X̄ ≈ N µX , √ ; Ȳ ≈ N µY , √
n m La media de la
Nos planteamos ahora la distribución de la diferencia de las medias: diferencia es la
X̄ − Ȳ . diferencia de las
Aplicando la propiedad de la suma de variables aleatorias normales medias; pero la
e independientes, se tiene que: varianza de la di-
� � � ferencia, cuando
2
σX σY2 son independien-
(15.6.2) X̄ − Ȳ ≈ N µX − µY , +
n m tes es al suma de
las varianzas.
Nota 37. Como caso particular, cuando las dos muestras proceden de
la misma población, µX = µY , y σX = σY , entonces la distribución de
la diferencia de medias sería:
� � �
1 1
X̄ − Ȳ ≈ N 0, + σ
n m
⇒ Distribución de la varianza muestral:

Supongamos que nos encontramos en las hipótesis de partida, y que
queremos obtener la distribución de la varianza muestral.
Supongamos que:
� �
σ
Xi ≈ N (µ, σ) y X̄ ≈ N µ, √
n
entonces la distribución de la diferencia Xi − X̄, será:
� � ��
2 1 (n + 1)σ 2
Xi − X̄ ≈ N 0, σ 1 + = N 0,
n n
o, de forma equivalente:
� ��
Xi − X̄ n
≈ N (0, 1)
σ n+1
Con lo cual, si elevamos estas variables al cuadrado, la variable suma

presenta la forma de la χ2 de Pearson. Sin embargo, estas variables no
son independientes (recuérdese que la suma de las desviaciones respecto
a su media es cero), pero sí podríamos expresar
�n � �2
Xi − X̄ nS 2
(15.6.3) 2
= 2
≈ χ2n−1
i=1
σ σ
como la suma del cuadrado de n-1 variables aleatorias independientes
con distribución N (0, 1); por lo que la variable anterior, seguirá una
distribución χ2 de Pearson con n − 1 grados de libertad.
⇒ Distribución de la media cuando no se conoce la varian-
za:
Consideremos una muestra aleatoria de tamaño n, (X1 , · · · , Xn ) obteni-
da de una población normal con parámetros N (µ, σ), donde suponemos
que no se conoce la varianza.
Si X ≈ N (µ, σ), entonces:
X̄ − µ √
n ≈ N (0, 1)
σ
Por otra parte, en el apartado anterior, hemos visto que:
nS 2
≈ χ2n
σ2
por tanto:
X̄−µ √
σ
n X̄ − µ √
S 2 � n
= n − 1 = tn−1
σ 2 n−1
S
se distribuye cono una t de Student con n − 1 grados de libertad.
⇒ Distribución de la diferencia de medias cuando no se
conoce la varianza:
Supongamos ahora que se toman dos muestras aleatorias (X1 , · · · , Xn )
e (Y1 , · · · , Ym ) de tamaños n y m respectivamente, de una población
N (µ, σ), donde consideramos que la varianza es desconocida. Se trata
de hallar la distribución de la diferencia entre las medias muestrales.
Siguiendo un razonamiento similar al del apartado anterior, obten-
dríamos que: �
X̄ − Ȳ mn
� 2 ≈ tn+m−2
nSX +mSY2 n+m
n+m−2
sigue una distribución t de Student con n + m − 2 grados de libertad.
Capítulo 16
Estimación Conocemos su
modelo proba-
bilístico, a ex-
El proceso de estimación tiene como finalidad la obtención del mo-
cepción de uno o
delo explícito de probabilidad que sigue una población o variable alea-
más parámetros
toria X, a partir de una muestra de tamaño n, sobre el cual existe un
que lo especifican
desconocimiento parcial o total. Si el desconocimiento es parcial, los
métodos de estimación tratan de obtener los parámetros desconocidos,
por lo que a tales métodos se les denomina paramétricos. Por el con-
trario, si existe un desconocimiento total de la población, los métodos
de estimación se llaman no paramétricos.
Vamos a limitarnos sólo a los problemas de estimación paramétrica,
y dentro de éstos al caso más sencillo en que la distribución de X depen-
de de un solo parámetro (aunque su generalización a una dependencia
de dos o más parámetros, no reviste dificultad).
Las estimaciones que se realizan no son más que inferencias ob-
tenidas a partir de la muestra mediante el empleo de un estimador
adecuado. Esto nos lleva a la necesidad de plantearnos: ¿Cómo obtener
estimadores?, y cuando exista más de un estimador ¿Cómo discernir
cual es el más apropiado?. A estos interrogantes contestan las dos pri-
meras secciones de este tema.
Por otra parte, las estimaciones que se pueden hacer son de dos
tipos: estimación puntual y estimación por intervalos. Nos referimos a
estimaciones puntuales cuando tratamos de obtener una aproximación
al valor correcto del parámetro desconocido; estas estimaciones variarán
con la muestra elegida, por lo cual a veces puede resultar más intere-
sante hallar unos límites de confianza entre los cuales ’debe’ oscilar el
valor del parámetro, que obtener un determinado valor del mismo. Este
segundo tipo de problemas se conoce como estimación por intervalos.
Estos aspectos serán tratados en la última sección del tema.
16.1. Estimadores. Propiedades

Estudiamos en este apartado una serie de propiedades que, en prin-
cipio, parecía razonable exigir a los ’buenos’ estimadores. Aún en aque-
llos casos en que tales propiedades no se satisfagan en su totalidad, éstas
115
116 16. ESTIMACIóN
pueden servirnos como un criterio que nos permita catalogar la bondad

de los estimadores.
Consideremos una v.a. X, cuya función de distribución depende de
un parámetro θ, y que denotamos por Fθ (x) o F (x, θ). Para estimar
este parámetro desconocido, supongamos que se toma una muestra
aleatoria de tamaño n, (X1 , · · · , Xn ) de esta población, a partir de la
cual, empleando un estimador θ̂ = θ̂(X1 , · · · , Xn ), cuando la muestra se
concreta en unos valores determinados, θ̂(x1 , · · · , xn ) nos proporciona
una estimación θ̂∗ del parámetro θ.
⇒ Insesgamiento.
Intuitivamente, podemos entender la desviación entre la estimación y
el verdadero valor del parámetro, como un error que depende del esti-
mador elegido:
� = θ̂∗ − θ
Nos interesaría que la estimación estuviese lo más próxima posible
al valor correcto del parámetro. Sin embargo, tal puntualización re-
sulta imposible de comprobar, pues el parámetro es desconocido y la
estimación depende de la muestra seleccionada.
No obstante, si podemos disponer de algún tipo de información, po-
demos conocer la distribución del estimador, y por tanto la estimación
promediada o valor esperado del estimador: E(θ̂).
De este modo, el error esperado del estimador, será:
B = E(θ̂) − θ
El error esperado es un error sistemático en la misma dirección, se
denomina sesgo. Diremos que un estimador es centrado o insesgado si
B = 0, y en otro caso, diremos que se trata de un estimador sesgado.
Parece lógico que, si disponemos de varios estimadores para apro-
ximar el valor de un parámetro desconocido, sea preferible aquél que
cometa un sesgo menor, o lo que es lo mismo, aquél que a priori sabemos
que nos conduce a un error promediado menor.
Nota 38. La media muestral es un estimador insesgado, puesto que
E(X) = µ.
En cambio la varianza muestral, es un estimador insesgado:
(n − 1)σ 2
E(S 2 ) =
n
Sin embargo, conocida la esperanza del estimador, resulta fácil la ob-
tención de un estimador insesgado:
�n � �2
nS 2 i=1 Xi − X̄
=
n−1 n−1
16.1. ESTIMADORES. PROPIEDADES 117
el cual se denomina cuasi-varianza muestral. Esta técnica de obtención

de estimadores insesgados suele ser útil en muchos casos.
⇒ Mínima varianza.
La regla del insesgamiento -elegir aquel estimador que nos conduzca
a un sesgo menor-, aunque muy importante, no es suficiente para de-
terminar un buen estimador; pues puede ocurrir que un estimador sea
centrado pero que a la vez, con un gran riesgo, se obtengan estimaciones
concretas alejadas del valor esperado. Entonces, quizás fuese preferible
un estimador que tuviese una probabilidad pequeña de tomar valores
alejados del esperado aunque cometiese un pequeño sesgo. En otras
palabras, parece razonable exigirle al estimador que su distribución se
concentre lo más posible en torno a su valor esperado.
Las consideraciones anteriores son equivalentes al criterio de varian-
za mínima:
Definición. Un estimador θ̂ se denomina de mínima varianza, si de
todos los estimadores de θ es el que tiene una varianza menor.
⇒ Eficiencia.
Parece razonable que si un estimador es insesgado y tiene varianza
mínima, será el más idóneo para estimar θ.
Pero también podría ocurrir que se nos presentase el siguiente di-
lema: ’disponemos de dos estimadores, uno centrado y otro sesgado; si
bien el sesgado tiene una varianza menor. ¿Cuál de los dos estimadores
elegir?’.
Para resolver este dilema, una de las formas de proceder, sería com-
parar la dispersión de sus estimaciones, no respecto a su valor esperado,
sino respecto al verdadero valor del parámetro. Así podemos establecer
la siguiente definición:
Definición. Llamamos � error�2cuadrático medio de un estimador θ̂ para
estimar θ, al valor: E θ̂ − θ .
Entonces podemos adoptar la siguiente regla de preferencia basada

en la eficiencia de estimador:
Definición. Dados dos estimadores θ̂1 y θ̂2 , de θ, diremos que θ̂1 es
más eficiente que θ̂2 , si se verifica:
� �2
E θ̂1 − θ
� �2 < 1
E θ̂2 − θ
118 16. ESTIMACIóN
Definición. Decimos que un estimador θ̂ es eficiente para un estimador

θ, si es más eficiente que cualquier otro estimador para ese parámetro.
Nota 39. Para un estimador insesgado, el error cuadrático medio coin-
cide con la varianza, por tanto esta regla de elección se reduce a la de
mínima varianza cuando los estimadores son centrados.
⇒ Consistencia.
También parece lógico exigir a un ’buen’ estimador que cuando la mues-
tra tiende a la población, las estimaciones converjan al parámetro.
Definición. Se dice que un estimador θ̂ es consistente, si se cumple:
��
� �
lı́m P �θ̂ − θ� > � = 0 , ∀� > 0
n→∞
Nota 40. Esta propiedad es muy intuitiva; nos dice que cuando la
muestra es grande, se dispone de más información y por lo tanto, debe-
ríamos de tener una seguridad mayor en obtener estimaciones próximas
al verdadero valor.
Otra propiedad Puede ocurrir que un estimador θ̂1 sea más eficiente que otro θ̂2 ,
exigible es la de pero que este segundo sea consistente y el primero no. Entonces si
suficiencia, que tenemos la posibilidad de tomar una muestra mayor, a partir de un
aproveche toda la determinado tamaño, el segundo será preferible al primero.
información de la Parece natural exigir a un estimador para que sea catalogable de
muestra ’bueno’ que sea insesgado, eficiente y consistente . Sin embargo, en mu-
chos casos no podremos encontrar estimadores satisfaciendo todas estas
propiedades, por lo que este listado de propiedades deseables puede ser
utilizado como un criterio para clasificar la ’bondad’ de los estimadores.
16.2. Métodos para la obtención de estimadores

Existen diversas técnicas para obtener estimadores. Vamos a cen-
trarnos en dos de las más importantes: método de máxima verosimilitud
y método de los momentos.
Método de la máxima verosimilitud. Es la técnica de estima-
ción más empleada, por las buenas propiedades a que conducen sus
estimaciones.
Intuitivamente, este método consiste en elegir como estimación del
parámetro, aquélla que tiene una mayor probabilidad de haber sido
la generadora de la muestra en la que nos basamos para realizar la
elección.
Formalmente, consideremos una variable aleatoria X, cuya distri-
bución depende de un parámetro θ; denotemos por f (x, θ) su función
16.2. MéTODOS PARA LA OBTENCIóN DE ESTIMADORES 119
de densidad si la variable es continua o por P (x, θ) su función de proba-

bilidad, si es discreta. Consideremos una muestra aleatoria de tamaño
n, (X1 , · · · , Xn ) de esta población, su función de probabilidad o densi-
dad, según el caso, que denotamos por L(X1 , · · · , Xn , θ), vendrá dada
por:
⇒ Caso discreto: L(x1 , · · · , xn , θ) = P (x1 , θ) · · · P (xn , θ)
⇒ Caso continuo: L(x1 , · · · , xn , θ) = f (x1 , θ) · · · f (xn , θ) siendo Elegimos el va-
(x1 , · · · , xn ) los valores particulares en los que se ha concretado lor del parámetro
la muestra aleatoria. para el que es
mayor la proba-
Esta función de probabilidad o de densidad, en ambos casos, es cono-
bilidad de que la
cida como función de verosimilitud .
muestra proceda
El criterio de máxima verosimilitud consiste en elegir la estimación
de esa población
del parámetro que maximice la función de verosimilitud; es decir, se
tomará aquella estimación θ̂∗ , tal que:
L(x1 , · · · , xn , θ̂∗ ) = máx L(x1 , · · · , xn , θ̂)
θ̂
El óptimo de esta función se obtiene igualando su derivada primera
(respecto al parámetro) a cero, a partir de la cual puede obtenerse el
valor de la estimación.
Si la distribución de X dependiese de varios parámetros, el óptimo
vendría dado por la igualación a cero de las derivadas parciales de L
respecto a esos parámetros.
El óptimo es un máximo por la propia forma de la función de vero-
similitud.
Nota 41. Cuando la variable es continua, L generalmente adopta una
forma exponencial, con lo cual tomando logaritmos en esta función
se simplifican considerablemente los cálculos. Como el óptimo de L
coincide con el de log L, usualmente suele optimizarse esta segunda
función en vez de la primera.
Propiedades:
1. Bajo condiciones muy generales, los estimadores máximo vero-
símiles son consistentes.
2. El estimador máximo verosímil es invariante (si θ̂ es un estima-
dor máximo verosímil de θ, entonces g(θ̂), lo es de g(θ)).
3. Para un tamaño muestral suficientemente grande, la distribu-
ción del estimador máximo verosímil se aproxima a una normal
de parámetros θ y 1
2.
nE ( ∂θ
∂
ln f (x,θ))
Esta propiedad nos indica, no solamente que el estimador es
consistente, sino que también nos muestra la ley probabilística
por la que el estimador converge al parámetro
120 16. ESTIMACIóN
Si la muestra Método de los momentos. Este método se basa en igualar mo-

converge a la po- mentos muestrales a momentos poblacionales.
blación, los mo- La distribución de X depende de ciertos parámetros, los momentos
mentos también teóricos de esta variable también dependerán de esas características.
convergerán Por otra parte, los momentos muestrales quedan determinados por
el conocimiento de la muestra; y como la muestra trata de especificar
el modelo probabilístico de la población, parece razonable que tales
características coincidan. De este modo, igualando tantos momentos
como parámetros desconocidos existan, se tendrá un sistema con el
mismo número de ecuaciones que de incógnitas, de cuya resolución se
obtendrá el valor de los parámetros que determinan la población.
Este método es más sencillo de aplicar que el de la máxima vero-
similitud, y los estimadores obtenidos son consistentes. Sin embargo,
suele utilizarse más el método de la máxima verosimilitud porque, ge-
neralmente, suele conducir a estimadores más eficientes.
16.3. Estimación por intervalos

Como ya se señaló en la introducción a este tema, se realiza una
estimación puntual cuando se obtiene un único valor como estimación
del parámetro poblacional.
En las secciones precedentes se ha visto cómo construir estimadores
y qué propiedades deberían satisfacer para que éstos fueran catalogados
de ’buenos’. Sin embargo, la teoría anterior no nos da una respuesta a
la pregunta: ¿Qué seguridad tenemos de que una estimación concreta
sea buena?. Porque, del hecho de que el estimador sea bueno, se obtiene
que en promedio las estimaciones también lo son, pero esta teoría no se
responsabiliza de lo que pueda ocurrir con una estimación particular.
Pretendemos en este apartado obtener solución a este problema,
mediante el empleo de los ’intervalos de confianza’.
Entendemos por intervalo de confianza un intervalo que, con cierta
probabilidad, se encuentra el parámetro desconocido. De un modo más
preciso:
Definición. Sea X una variable aleatoria cuya distribución depende

de un parámetro θ. Un intervalo de confianza de θ es un intervalo de
la forma [θ̂1 , θ̂2 ], tal que:
� �
P θ̂1 ≤ θ ≤ θ̂2 = 1 − α
donde el número 1 − α, se conoce como coeficiente o nivel de confianza

(con el que se construye el intervalo).
16.3. ESTIMACIóN POR INTERVALOS 121
A θ̂1 y θ̂2 se les denomina límites de confianza, inferior y superior,

respectivamente.
Lógicamente, los límites de confianza θ̂1 y θ̂2 , así como la proba-
bilidad de que el parámetro se encuentre entre ellos, son magnitudes
desconocidas; y nuestra única fuente de información posible será la de-
rivada de una muestra aleatoria de tamaño n, (X1 , · · · , Xn ), obtenida
a partir de esa población. Así pues, se tratará de buscar la forma de
expresar tales cantidades en función de los valores muestrales obteni-
dos.
Supongamos que se puede definir un estimador de θ:
θ̂ = θ̂ (X1 , · · · , Xn )
que es una función continua y monótona de θ y cuya distribución no
dependa de parámetros.
Entonces, si conocemos la distribución del estimador, podemos en-
contrar dos cantidades γ1 y γ2 tales que, para un nivel de confianza
1 − α, se tenga:
� �
P γ1 ≤ θ̂(X1 , · · · , Xn ) ≤ γ2 = 1 − α
Resolviendo las ecuaciones:
γ1 = θ̂(X1 , · · · , Xn ) , γ2 = θ̂(X1 , · · · , Xn )
obtenemos unas soluciones genéricas θ̂1 (X1 , · · · , Xn ) y θ̂2 (X1 , · · · , Xn ),
tales que, si:
γ1 ≤ θ̂ ≤ γ2 ⇒ θ̂1 ≤ θ ≤ θ̂2
y: � �
P θ̂1 ≤ θ ≤ θ̂2 = 1 − α
Evidentemente θ̂1 y θ̂2 son dos variables aleatorias que pueden tomar
muchos valores diferentes. Sin embargo, nos interesará que los límites
de confianza estén lo más próximos posibles. Si la distribución del es-
timador es campaniforme, la amplitud del intervalo de confianza será
menor cuando θ̂1 y θ̂2 sean equidistantes del centro de la distribución.
Luego, los límites de confianza óptimos serán de la forma: θ̂−� , θ̂+�.
Por otra parte, � siempre se puede expresar como k veces la desvia-
ción típica del estimador. Así pues, cuando conozcamos la distribución
que sigue el estimador, para determinar el intervalo de confianza a un
nivel 1 − α, (nivel que se fija de antemano), será suficiente buscar en
las tablas correspondientes el valor de k, tal que:
� � � � � �
P θ̂ − kσ ≤ θ ≤ θ̂ + kσ = F θ̂ + kσ − F θ̂ − kσ = 1 − α
122 16. ESTIMACIóN
Nota 42. Si la distribución del estimador no fuera conocida, pero si

conociéramos su esperanza y su varianza, entonces la desigualdad de
Chebyshev nos proporciona una acotación al valor del parámetro.
��
� �
La desigualdad de Chebyshev nos dice que: P �θ̂ − E θ̂ � ≥ k12 ,
o equivalentemente:
�� 1
� �
P �θ̂ − E θ̂ � kσ ≥ 1 − 2
k
de donde: � � � � 1
P θ̂ − kσ ≤ E θ̂ ≤ θ̂ + kσ ≥ 1 − 2
k � �
entonces, coincide la esperanza del estimador, se tiene: θ = E θ̂ − B,
(siendo B el sesgo del estimador), y por tanto:
� � 1
P θ̂ − kσ − B ≤ θ ≤ θ̂ + kσ − B ≥ 1 − 2
k
Una vez vistos los aspectos generales de esta teoría, vamos a centrar-
Cuando no se nos ahora en algunas aplicaciones que nos permiten obtener intervalos
conoce la dis- de confianza para determinados estimadores.
tribución de ⇒ Intervalo de confianza para la media cuando se conoce
la población, la varianza
pero la mues-
tra es grande,
Hemos visto que, cuando la población se distribuye normalmente � con
�
� �
X̄ → N µ, √σn parámetros µ y σ, la media muestral sigue una distribución N µ, √n . σ
Entonces:
X̄ − µ √
n ≈ N (0, 1)
σ
Por tanto, fijado un nivel de confianza 1 − α, podemos buscar en
las tablas de la distribución normal aquel valor de kα tal que:
� �
X̄ − µ √
P −kα ≤ n ≤ kα = 2F (kα ) − 1 = 1 − α
σ
esta probabilidad, puede expresarse también como:
� �
kα σ kα σ
P X̄ − √ ≤ µ ≤ X̄ + √ =1−α
n n
entonces: � �
kα σ kα σ
X̄ − √ , X̄ + √
n n
es un intervalo de confianza a un nivel 1−α, para la media poblacional.
Nota 43. En concreto, cuando 1−α = 0, 95, el valor de kα = 1, 96, con

lo que el intervalo de confianza al 95 %, para la esperanza de población,
será: � �
1, 96σ 1, 96σ
X̄ − √ , X̄ + √
n n
⇒ Intervalo de confianza para la diferencia de medias cuan-
do se conoce la varianza
Consideremos dos variables X ≈ N (µX , σX ) e Y ≈ N (µY , σY ), con
varianzas σX
2
y σY2 conocidas, y para estimar la diferencia de medias,
tomamos una muestra independiente de cada distribución de tamaños
n y m respectivamente.
Entonces la diferencia de medias muestrales sigue una distribución:
� � �
2
σX σY2
X̄ − Ȳ ≈ N µX − µY , +
n m
de forma análoga al caso anterior, fijado un nivel de confianza 1 − α,
podemos encontrar en las tablas de la distribución normal aquel valor
de kα tal que:
 
(X̄ − Ȳ ) − (µX − µY )
P −kα ≤ �
2 2
≤ kα  = 2F (kα ) − 1 = 1 − α
σX σY
n
+ m
con lo cual:
� � � �
2
σX σ2 2
σX σ2
(X̄ − Ȳ ) − kα + Y , (X̄ − Ȳ ) + kα + Y
n m n m
es un intervalo de confianza para la diferencia de medias, a un nivel
1 − α.
Nota 44. Como caso particular, cuando las varianzas poblacionales
coinciden y el nivel de confianza se fija en el 95 %, el intervalo de con-
fianza viene dado por:
� � � �
1 1 1 1
(X̄ − Ȳ ) − 1, 96σ + , (X̄ − Ȳ ) + 1, 96σ +
n m n m
⇒ Intervalo de confianza para la varianza

2
Hemos visto en la ecuación 15.6.3 que el estadístico nS σ2
, sigue una
distribución χ con n − 1 grados de libertad.
2
En la tabla de la χ2 figuran las probabilidades acumuladas de la

cola izquierda por lo que, fijado un nivel de confianza 1 − α, podemos
124 16. ESTIMACIóN
encontrar, en la fila correspondiente a n − 1, números k1 y k2 de modo

que:
� 2 � � 2 �
nS α nS α
P ≤ k 1 = , y P ≥ k 2 =
σ2 2 σ2 2
el intervalo resultante será muy próximo al óptimo. Generalmente, ésta
es la técnica utilizada. De esta forma, el intervalo:
� 2 �
nS nS 2
,
k2 k1
nos determina un intervalo de confianza para la varianza, a un nivel
1 − α.
⇒ Intervalo de confianza para la media de una población
cuando no se conoce la varianza
El estadístico:
X̄ − µ
T = S
√
n−1
sigue una distribución t con n − 1 grados de libertad. Por tanto, fija-
do un nivel de confianza 1 − α, podemos encontrar en la tabla de la
distribución t, en la fila correspondiente a n − 1, un valor kα , tal que:
� �
X̄ − µ
P −kα ≤ S ≤ kα = 1 − α
√
n−1
de donde: � �
S S
X̄ − kα √ , X̄ + kα √
n−1 n−1
es un intervalo de confianza para la media poblacional (cuando no se
conoce la varianza), para un nivel de confianza 1 − α.
⇒ Intervalo de confianza para la diferencia de medias cuan-
do no se conoce la varianza
El estadístico: � � � nm
X̄ − Ȳ n+m
T = � 2 2
nSX +mSY
n+m−2
sigue una distribución t de Student con n + m − 2 grados de libertad.

Luego, fijado un nivel de ocnfianza 1 − α, podemos encontrar en la
tabla de la distribución t (en la fila correspondiente a n+m-2) aquel
valor kα para el cual:
P (kα ≤ T ≤ kα ) = 1 − α
entonces, el intervalo:
� � � �
2 2 2
(nSX + mSY ) (n + m) (nSX + mSY2 ) (n + m)
(X̄ − Ȳ ) − kα , (X̄ − Ȳ ) + kα
nm(n + m − 2) nm(n + m − 2)
es de confianza a un nivel 1 − α, para estimar la diferencia de medias
poblacionales.
⇒ Intervalo de confianza para la proporción
Si en vez de observar una variable cuantitativa, se trata de una ca- Es un caso par-
racterística cualitativa, una estimación muy frecuente es la proporción ticular de la es-
de individuos de la población con unas determinadas características, a timación de la
partir de la población observada en la muestra. media.
La distribución del estimador P sigue un modelo binomial, cuyas
características son:
pq
E(P ) = p , y V ar(P ) =
n
siendo p la proporción en la población y q = 1 − p.
Para obtener intervalos de confianza de la proporción, cuando la
muestra es grande hacemos uso de la aproximación de la binomial a la
normal.
De esta forma:
P −p
� pq → N (0, 1)
n→∞
n
por lo que fijado un nivel de confianza 1 − α podemos determinar en
las tablas el valor kα tal que:
� �
P −p
P −kα ≤ � pq ≤ kα = 1 − α
n
y por tanto: � � � �
pq pq
p − kα , p + kα
n n
es un intervalo de confianza, a un nivel 1 − α, para la proporción.
Cuando la varianza de la proporción pq n
es desconocida, se estima a
partir de la muestra mediante:
P (1 − P )
n−1
Cuando la muestra es pequeña, debemos de recurrir a las tablas de n viene indicado
la distribución binomial, en la cual fijado un nivel de confianza 1 − α, por el tamaño de
podemos encontrar dos valores del parámetro p: p1 y p2 tal que: la muestra.
α α
P (X ≥ nP |p1 ) = y P (X ≤ nP |p2 ) =
2 2
126 16. ESTIMACIóN
Entonces (p1 , p2 ) es un intervalo de confianza a un nivel 1 − α para

estimar la proporción.
Capítulo 17
Contraste de hipótesis
Hasta el momento, nos hemos ocupado de estimar un valor puntual

del parámetro o bien de obtener un intervalo en el cual ’probablemente’
se encuentre el parámetro.
Nos planteamos ahora otro importante problema dentro de la In-
ferencia Estadística; y es cuando consideramos la muestra, no como la
única fuente de información, sino como una información adicional que
se emplea para contrastar alguna hipótesis o supuesto que se había es-
tablecido a partir de ciertos conocimientos previos sobre los parámetros
poblacionales.
17.1. Planteamiento general Si no admitiése-

mos más posibi-
Consideremos una variable aleatoria X cuya distribución depende
lidades que H0 ,
de un parámetro θ, y supongamos que informaciones previas nos per-
no sentiríamos
miten formular algún supuesto acerca del valor hipotético de θ.
la necesidad de
Este supuesto sobre el comportamiento de θ se denomina hipótesis
contrastar este
nula, y se denota por H0 .
supuesto.
Para contrastar si la hipótesis es cierta o no, deberemos considerar
alternativas a tal supuesto; estas opciones podemos incluirlas en una
disyuntiva común a la hipótesis nula, a la cual se denomina hipótesis
alternativa, y se designa por H1 .
Cuando las hipótesis son tales que, de ser ciertas, especifican el
valor del parámetro, se denominan hipótesis simples. En caso contrario
se denominan hipótesis compuestas.
Para contrastar cuál de las hipótesis H0 o H1 es ’cierta’, seleccio-
namos una muestra aleatoria de tamaño n de esa población, y compro-
bamos cuál de los supuestos está más de acuerdo con la información
proporcionada por la muestra.
Sin embargo, esta información desagregada no sabemos manejarla,
a no ser de un modo intuitivo, por lo que se establece alguna regla o test
que nos conduzca a un único valor, sobre el cual podemos analizar si las
discrepancias con respecto a la hipótesis formulada son ’significativas’
o no.
127
128 17. CONTRASTE DE HIPóTESIS
Una seguridad Evidentemente, nunca tendremos una certeza absoluta de que la

plena, solo se ten- elección de hipótesis cierta lo sea realmente, por lo que tendremos cierto
dría si la muestra riesgo de fallar nuestra decisión sobre la hipótesis verdadera.
alcanza a toda la Tenemos dos formas de equivocarnos en la elección de la hipótesis
población. verdadera:
1. Rechazar H0 cuando sea cierta
2. Aceptar H1 cuando sea falsa
estos errores se denominan de tipo I y tipo II , respectivamente.
Se podrían establecer diferentes reglas o test, lógicamente quisiéra-
mos elegir una que hiciese mínimo el riesgo de cometer tales errores.
Este riesgo puede medirse en términos de probabilidades:
P (H0 /H0 F also) = β ,y P (H1 /H0 Cierto) = α
Cada test, en función del tamaño de la muestra y de las probabili-
dades anteriores, divide al conjunto de valores posibles del parámetro
en dos zonas: zona de aceptación y zona de rechazo. Disminuir la pro-
babilidad de error tipo I, α, esto es, la probabilidad de rechazar la
hipótesis cuando sea cierta, disminuye la zona de rechazo. Pero dismi-
nuir esta zona significa aumentar la de ’no rechazo’ y por tanto una
mayor probabilidad de error tipo II.
Por lo general, no tiene la misma incidencia un error que otro, sino
que se considera más grave rechazar la hipótesis H0 cuando es cierta
Usualmente se
que aceptarla en caso contrario; por lo cual una forma coherente de
elige α = 0, 05 o
proceder es la siguiente:
α = 0, 01.
’Fijada una ’mínima’ probabilidad de cometer un error tipo I, α,

a la que denominaremos nivel de significación, se elige aquel test que
manteniéndose dentro de esos márgenes asigne una probabilidad menor
al error tipo II, β, o lo que es lo mismo, aquél que tenga una mayor
potencia 1 − β.’
Finalmente, elegido el test, éste nos conduce a una regla de decisión
lógica:
Se aplica el test sobre la información proporcionada por la muestra,
y analizamos su resultado. Si este valor cae en la zona de rechazo, se
rechaza la hipótesis nula (es aceptada la hipótesis alternativa), mientras
que si cae en la zona de aceptación, tal hipótesis no es rechazada.
17.2. Algunos test importantes

Presentamos en este apartado algunas aplicaciones de la teoría an-
terior, que con frecuencia se utilizan para contrastar hipótesis.
17.2. ALGUNOS TEST IMPORTANTES 129
⇒ Test para contrastar la media cuando se conoce la va-

rianza
Sea X una v.a. de la cual suponemos conocida su varianza. Queremos
realizar algunos contrastes acerca del valor esperado de la variable
1. Si es uno determinado µ0 : H0 : µ = µ0 , H1 : µ �= µ0
2. Si es menor o igual a µ0 : H0 : µ ≤ µ0 , H1 : µ > µ0
3. Si es mayor que µ0 : H0 : µ > µ0 , H1 : µ ≤ µ0 Si X no es nor-
mal, pero n gran-
Para ello, tomamos una muestra aleatoria de tamaño n de esta po-
de (n ≥ 30),
blación, (X1 , · · · , Xn ). Sabemos que cuando X sigue una ley normal,
entonces
� � →
X
entonces� la media
� muestral también sigue una distribución normal:
N µ, √σn
σ
X ≈ N µ, √n
Por tanto:
X̄ − µ √
n ≈ N (0, 1)
σ
Contrastes:
1. H0 : µ = µ0 frente a H1 : µ �= µo
Supongamos la hipótesis µ = µ0 , en cuyo caso:
X̄ − µ0 √
n ≈ N (0, 1)
σ
entonces fijado un nivel de significación α, podemos encontrar
en las tablas de la normal, aquel valor kα tal que:
� �
X̄ − µ0 √
P −kα ≤ n ≤ kα = 1 − α
σ
probabilidad que también se puede expresar como:
� �
σ σ
P µ0 − kα √ ≤ X̄ ≤ µ0 + kα √ =1−α
n n
El intervalo:
� �
σ σ
µ0 − k α √ , µ 0 + k α √
n n
corresponde a la zona de aceptación, donde, en buena lógica,
debería de encontrarse la media muestral, con una probabilidad
1 − α, si nuestra hipótesis fuera cierta.
La región de rechazo será:
� � � �
σ � σ
(17.2.1) −∞, µ0 − kα √ µ0 + kα √ , +∞
n n
Las zonas de aceptación y de rechazo están determinadas
por el nivel de significación y el tamaño muestral; una vez fijados
éstos dichas zonas resultan conocidas (la variable es conocida y

la esperanza la suponemos cierta).
Regla de decisión: Se toma una muestra concreta (x1 , · · · , xn )
y calculamos su media, si ésta cae en la zona de aceptación, no
rechazamos la hipótesis de que la esperanza de X es µ0 , a un
nivel de significación α. En otro caso, se rechaza tal hipótesis.
2. H0 : µ ≤ µ0 frente a H1 : µ > µ0 Fijado el nivel de significación
α , podemos encontrar un kα en las tablas de la normal, tal que:
� �
X̄ − µ0 √
P n ≤ kα = 1 − α
σ
� �
con lo cual. p X̄ ≤ µ0 + kα n = 1 − α por lo que las regiones
√σ
de aceptación y rechazo son respectivamente:

� � � �
σ σ
−∞, µ0 + kα √ , y µ0 + kα √ , +∞
n n
Regla de decisión: se calcula la media sobre la muestra ob-
tenida, y se rechaza o no la hipótesis nula, según que su valor
se encuentre en la zona de aceptación o de rechazo respectiva-
mente.
3. H0 : µ > µ0 frente a H1 : µ ≤ µ0
Con el mismo test que en 2., la regla de decisión es la si-
guiente:
Si la media muestral es menor o igual que µ0 − kα √σn se
rechaza la hipótesis y en otro caso no se rechaza.
⇒ Test para contrastar la diferencia de medias cuando se
conoce la varianza
Hemos visto en temas anteriores, que el estadístico:
(X̄ − Ȳ ) − (µX − µY )
� ≈ N (0, 1)
2
σX 2
σY
n
+ m
Fijado un nivel de significación α, podemos encontrar en la tabla

de la distribución normal el valor kα tal que:
P (−kα ≤ N (0, 1) ≤ kα ) = 1 − α
con lo cual, la región de aceptación es:
� � � �
2
σX σY2 2
σX σY2
(µX − µY ) − kα + , (µX − µY ) + kα +
n m n m
Contrastes:
1. Las poblaciones tienen igual media: H0 : µX = µY frente a

H1 : µX �= µY En este caso la región de aceptación es:
� � � �
2
σX σY2 2
σX σY2
−kα + , +kα +
n m n m
Regla de decisión: Si la diferencia de las medias muestrales
no pertenece a ese intervalo, se rechaza la hipótesis. En otro
caso no se rechaza.
2. H0 : µX ≤ µY frente a H1 : µX > µY
En este caso, determinaremos el valor de kα tal que:
P (N (0, 1) ≤ kα ) = 1 − α
Regla de decisión: si,
�
2
σ2
X̄ − Ȳ > kα X + Y
n m
se rechaza la hipótesis, en otro caso no se rechaza.
3. H0 : µX > µY frente a H1 : µX ≤ µY En este caso utilizamos el
mismo test que en 2. La región de re-
Regla de decisión: Si chazo siempre
� va en la misma
2
σ2 dirección que la
X̄ − Ȳ ≤ −kα X + Y hipótesis alterna-
n m
se rechaza, en otro caso no se rechaza. tiva.
⇒ Test para contrastar la varianza de una distribución

normal.
2
Ya hemos visto en varias ocasiones que nS σ2
sigue una distribución χ2
con n-1 grados de libertad.
Fijado un nivel de significación α, podemos encontrar en la tabla
de la distribución χ2 , en la fila correspondiente a n − 1 dos números k1
y k2 , tales que:
� 2 � � 2 �
nS α nS α
P 2
≤ k1 = , y P 2
≥ k2 =
σ 2 σ 2
Contrastes:
1. H0 : σ 2 = σ02 frente a H1 : σ 2 �= σ02
La región de aceptación es:
� �
σ02 σ02
k1 , k2
n n
Regla de decisión:
�
Calculamos la varianza muestral: n1 ni=1 (zi − x̄)2 , si este
valor no se encuentra en la zona de aceptación, rechazamos la
hipótesis y en otro caso no la rechazamos.
2. H0 : σ 2 ≤ σ02 frente a H1 : σ 2 > σ02
En las tablas de la distribución χ2 , se obtiene un valor kα ,
tal que: � 2 �
nS
P ≤ kσ = 1 − α
σ2
Regla de decisión: Se calcula la varianza muestral, y si su
σ2
valor es mayor que kα n0 , se rechaza la hipótesis y en otro caso
no se rechaza.
3. H0 : σ 2 > σ02 frente a H1 : σ 2 ≤ σ02
Se determina kα de modo que:
� 2 �
nS
P ≤ kα = α
σ2
Regla de decisión: se calcula la varianza muestral, si ésta es
σ2
menor o igual que kα n0 , se rechaza la hipótesis y en otro caso
se acepta.
⇒ Test para contrastar la media cuando no se conoce la
varianza.
El estadístico:
X̄ − µ √
T = n−1
S
sigue una distribución t, con n − 1 grados de libertad.
Contrastes:
1. H0 : µ = µ0 frente a H1 : µ �= µ0
En las tablas de la distribución t, fijado un nivel de signi-
ficación α, podemos encontrar un número kα , en la fila corres-
pondiente a n − 1, tal que:
P (−kα ≤ t ≤ kα ) = 1 − α
entonces, el intervalo:
� �
s s
µ0 − k α √ , µ 0 + kα √
n−1 n−1
es la región de aceptación del test.
Regla de decisión: Calculamos la media muestral; si no per-
tenece al intervalo anterior rechazamos la hipótesis, en otro caso
no la rechazamos.
2. H0 : µ ≤ µ0 frente a H1 : µ > µ0
Fijado un nivel α, determinamos kα en la tabla de la distri-
bución t, tal que:
(17.2.2) P (tn−1 ≤ kα ) = 1 − α
Regla de decisión: Calculamos la media de la muestra; si
ésta es mayor que µ0 + kα √n−1
S
rechazamos la hipótesis, en otro
caso no lo rechazamos.
3. H0 : µ > µ0 frente a H1 : µ ≤ µ0
Regla de decisión: Si la media muestral nos sale menor o
igual que µ0 − kα √n−1
S
, siendo kα determinado por la ecuación
17.2.2, rechazamos la hipótesis y en otro caso no la rechazamos.
⇒ Test para contrastar la diferencia de medias cuando no
se conoce la varianza.
Estadístico: � nm
(X̄ − Ȳ ) n+m
t= � 2
nSX +mSY2
n+m−2
se distribuye como una t de Student con n + m − 2 grados de libertad.

Contrastes:
1. H0 : µX = µY frente a H1 : µX �= µY
Fijado un nivel de significación α, podemos determinar en
las tablas de la distribución t, en la fila correspondiente a n +
m − 2 el valor kα , tal que:
P (−kα ≤ t ≤ kα ) = 1 − α
El intervalo:
� ��
2
nSX + mSY2 n+m 2
nSX + mSY2 n+m
−kα , +kα
n+m−2 nm n+m−2 nm
determina la región de aceptación del test.

Regla de decisión: Si la diferencia de medias cae fuera de ese
intervalo se rechaza la hipótesis. En otro caso no se rechaza.
2. H0 : µX ≤ µY frente a H1 : µX > µY
Regla de decisión: Se rechaza la hipótesis si la diferencia de
medias es mayor que:
��
2
nSX + mSY2 n+m
(17.2.3) kα
n+m−2 nm
donde kα , para un nivel de significación α, viene determina-

do por:
P (tn+m−2 ≤ kα ) = 1 − α
3. H0 : µX > µY frente a H1 µX ≤ µY
Regla de decisión: Si la diferencia de medias es menor o igual
al valor opuesto de 17.2.3,
��
2
nSX + mSY2 n+m
X̄ − Ȳ ≤ −kα
n+m−2 nm
rechazamos la hipótesis, en otro caso no la rechazamos.
⇒ Prueba del buen ajuste
El test que ahora presentamos tiene un planteamiento muy diferente al
de las pruebas anteriores; este test pretende contrastar si la distribución
de una variable aleatoria es una determinada o no.
Cuando nos encontramos con una distribución empírica, nos intere-
sa conocer el modelo teórico que ésta sigue, puesto que este modelo
es una idealización de esa realidad que nos permitirá extrapolar con-
clusiones sobre los nuevos o futuros valores que puedan llegar a ser
reales.
Pero, en general, no conoceremos este modelo, por lo que hecha la
hipótesis de que éste es uno determinado, cabe preguntarse ¿qué tal de
bien se ajusta ese modelo a la realidad existente?
Para contrastar si se ajusta bien o mal, se construye un test, de la
χ2 , que analiza las discrepancias entre las frecuencias ni observadas en
una determinada muestra de tamaño n, y sus respectivas frecuencias
teóricas que se hubieran presentado si este modelo fuera cierto, npi .
Fijado un nivel de significación, α, si las discrepancias son signifi-
cativas, se rechaza la hipótesis y en otro caso no se rechaza.
La medida de discrepancia empleada o test χ2 de la bondad de
ajuste, es la siguiente:
n
� (ni − npi )2
d=
i=1
npi
puede demostrase que d sigue una distribución χ2 con n − 1 grados

de libertad, cuando no existen parámetros indeterminados. Si a partir
de la misma muestra necesitamos estimar un número k de parámetros,
entonces d sigue una distribución χ2 , con (n−1)−k grados de libertad.
Nota 45. Para que las aproximaciones sean buenas, debemos realizar
las agrupaciones oportunas de modo que: npi ≥ 5
Entonces, fijado un nivel de significación α, podemos determinar en

las tablas de la χ2 , el valor kα , tal que:
P (d ≤ kα ) = 1 − α
Regla de decisión: Calculamos el valor de d, sobre la muestra elegida;
si d > kα , se rechaza la hipótesis al nivel de significación α. En otro
caso no se rechaza la hipótesis.
Capítulo 18
Diseño de encuestas. Muestreo en poblaciones

finitas
Hasta ahora, se ha hecho uso de la inferencia estadística para rea-

lizar estimaciones, contrastes de hipótesis u obtener intervalos de con-
fianza; pero siempre partiendo de la base de que la población era infinita
(o que la muestra se elige por un método aleatorio con reposición, en
cuyo caso el muestreo puede equipararse al correspondiente de pobla-
ciones infinitas).
Abordamos en este tema algunas alternativas a los planteamientos
anteriores, cuando la población es finita, tales como:
♦ ¿Qué pasos deben seguirse para diseñar una encuesta?
♦ ¿Qué métodos de selección de la muestra suelen emplearse?
♦ ¿Alteran estos métodos los estimadores obtenidos en poblacio-
nes infinitas?
♦ ¿Alguno de ellos mejora la precisión de las estimaciones?
♦ ¿Los errores que introducen las muestras harán desaconsejables
tales técnicas?
♦ ¿Cual será el tamaño óptimo de una muestra?
Esperamos dar respuesta a estas cuestiones en las próximas secciones.
18.1. Conceptos básicos

Hasta ahora hemos considerado las poblaciones infinitas, lo que nos
facilita el tratamiento de los procesos de estimación en un doble sentido:
i Nos permite utilizar el aparato matemático en toda su amplitud
(tenemos garantizado el paso al límite)
ii Cada extracción puede considerarse independiente de las demás,
y esto nos simplifica el cálculo de la distribución de la muestra,
al poder expresarla como producto de las distribuciones de cada
componente.
Sin embargo, en la práctica, tal hipótesis de infinitud, por lo general,
no se cumple ya que las poblaciones usuales son finitas; limitándose
aquéllas a casos muy idealizados y que se ajustan poco a la realidad.
137
138 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS
En cualquier proceso de estimación, existe un problema básico que

es la obtención de la información, la cual está generalmente en los
individuos (o grupos de individuos) que componen la población, a los
que se les denomina unidades elementales o unidades primarias.
Las encuestas pueden ser muestrales o censales:
Definición. Una encuesta censal o censo recaba información sobre
ciertas características de todos y cada uno de los elementos que com-
ponen la población.
Definición. La encuesta muestral recoge información sólo de una parte
de la población, seleccionada para formar una muestra representativa
de la misma.
En general, la población posee ciertos parámetros desconocidos que
se tratan de estimar, y que en poblaciones finitas se denominan valores
verdaderos. Usualmente, estos parámetros son la media, el total o la
proporción.
Aun cuando se haga una encuesta censal, tales valores verdaderos
resultarán desconocidos; las limitaciones en los instrumentos emplea-
dos y múltiples fuentes de error (se analizan más adelante) hacen que
puedan obtenerse unos valores próximos a los verdaderos (pero no éstos
de forma exacta) a los que se denomina valores observados.
Como no siempre se puede realizar una encuesta censal, para es-
timar los valores verdaderos se utilizan encuestas muestrales, que em-
pleando estimadores ’adecuados’ proporcionan estimaciones fiables en
’cierta medida’.
Las estimaciones, por lo general, vendrán afectadas de una serie
de errores, que en forma global se conocen como errores debidos al
muestreo; en estos se distinguen dos componentes: una componente
aleatoria del error debido a la propia elección de la muestra, que se
denomina error de muestreo; y otra componente en la que se encuadran
los errores sistemáticos que no dependen del azar y que se llama sesgo.
Finalmente, en relación con la fiabilidad de las estimaciones surgen
dos nuevos conceptos: precisión y acuracidad . Dados dos métodos de
estimación, se dice que uno es más preciso que otro, si nos conduce a
un menor error de muestreo; y se dice que es más acurado si es más
pequeño su error debido al muestreo.
18.2. Diseño de una encuesta

Desarrollamos en esta sección las diversas etapas que deben tenerse
en cuenta para la realización de una encuesta.
18.2. DISEñO DE UNA ENCUESTA 139
Como paso previo a cualquier otro, deben delimitarse los objetivos

que se persigue con una encuesta, qué información se necesita para
cubrir estos objetivo y dónde se encuentra esa información.
Esta etapa previa es de suma importancia, pues debemos tener
presente que, cuando se hace un estudio estadístico de una realidad
empírica, la información resulta siempre muy costosa y los medios eco-
nómicos disponibles, generalmente, son escasos. Se plantea por tanto
un típico problema de asignación de recursos para optimizar el bino-
mio coste-información; en consecuencia, el diseño o planificación de la
encuesta es decisivo para rentabilizar la relación anterior.
Partiendo de esta observación, podrá entenderse mejor la impor-
tancia de conseguir un buen engranaje entre las diversas etapas que
constituyen una encuesta. Éstas, de forma sintética, son las siguientes:
1. El cuestionario.
El cuestionario es el instrumento que facilita la transición de
la información desde el informador individual al receptor. Esta
información se plasma a través de una serie de preguntas que
constituyen el cuestionario.
La fiabilidad de los resultados de una encuesta dependerá
en gran medida de la presentación del cuestionario, por lo que
debe prestarse la máxima atención a su elaboración. Algunas
consideraciones a tener en cuenta son:
a El número de preguntas: Ha de ser suficiente para recoger
la información necesaria, pero a la vez no ha de ser excesivo
El censo agrario
ya que puede conducir a un agotamiento en el entrevistado
tiene más de 800
y esto a un falseamiento de la información suministrada por
preguntas.
el mismo.
b Forma de presentar las preguntas: Las preguntas pueden ser:
dicotómicas, de varias alternativas y de respuesta libre. Es-
tas últimas son las que plantean mayores problemas dada
su dificultad de tabulación.
c Redacción correcta de las preguntas: Este es un factor im-
portante en la elaboración del cuestionario. Las preguntas
deben ser redactadas con claridad y expresadas en un len-
guaje afín al colectivo al que va dirigida la encuesta.
d Evitar preguntas tendenciosas: Estas podrían no sólo sesgar
esta respuesta, sino también producir un falseamiento en las
restantes.
e Orden de las preguntas: Existen algunos estudios sobre este
aspecto, de los cuales se desprende que el informador pres-
ta más atención a las preguntas situadas al principio y al
final del cuestionario. Por tanto es conveniente establecer

una ’buena’ ordenación de las preguntas, dado que no to-
das las preguntas revisten la misma importancia de cara a
la exactitud de los resultados.
2. El marco.
Se conoce como marco al conjunto de información necesa-
ria, sobre el colectivo al cual va dirigida la encuesta, para su
aplicación. De esta información cabe distinguir el listado de las
unidades que componen la población (que servirá de base para
la selección de la muestra), y otras informaciones complemen-
tarias sobre este colectivo que serán de utilidad en otras etapas
de la elaboración de la encuesta; estos tipos de información se
conocen como marco en sentido restringido y sentido amplio,
respectivamente
3. Conglomerados de unidades.
En muchas ocasiones no resulta posible acceder a las uni-
dades elementales que componen la población, por lo que se
Para estudiar recurre a la formación de conglomerados o agrupación de estas
el nivel de co- unidades en subpoblaciones, de modo que cada una de ellas sea
nocimientos de una ’cuasi-representación’ a escala de la población; esto es, exis-
los alumnos de te una heterogeneidad entre las unidades que componen cada
primaria, los cole- conglomerado, mientras que entre conglomerados se mantiene
gios, son conglo- una gran similitud u homogeneidad.
merados Los conglomerados pueden considerarse como unidades se-
Para estudiar el cundarias cuya finalidad es facilitarnos el acceso a las unidades
nivel de conoci- primarias o elementales.
mientos de los 4. Estratificación.
alumnos de pri- Estratificación es el proceso por el cual se divide a la pobla-
maria, los cursos ción en subpoblaciones o estratos, generalmente motivados por
dentro de un co- circunstancias geográficas, económicas o sociales.
legio son estratos. La formación de estratos tiene un planteamiento muy dife-
rente a la seguida en los conglomerados; en este caso, se agrupan
elementos de la población que posean ciertas características co-
munes, logrando así una homogeneidad dentro del estrato y por
lento una heterogeneidad entre estratos.
Los fines que se persiguen con la estratificación son:
a Mejorar la precisión de las estimaciones globales, mediante
la agrupación de unidades homogéneas.
b Obtener estimaciones separadas para ciertas subpoblacio-
nes.
c Utilizar métodos de muestreo diferentes en cada estrato.
5. Métodos de selección.
18.3. MéTODOS DE SELECCIóN 141
6. Estimación.
Estas dos etapas se desarrollan en las próximas secciones.
7. Trabajos de campo.
Se incluyen en este apartado las labores de recogida de da-
tos, selección y adiestramiento de agentes y supervisores, redac-
ción de manuales e instrucciones, etc.; es decir, abarca todos
aquellos trabajos que están relacionados de forma directa con
la recogida de la información.
8. Tabulación.
El proceso de tabulación incluye la elaboración de tablas,
informatización y depuración de datos, etc.
9. Evaluación de resultados.
Se incluyen en esta etapa el análisis e interpretación de re-
sultados, análisis de costes, discrepancias entre el diseño teórico
y su aplicación, etc.
18.3. Métodos de selección

Describiremos en esta sección las técnicas de muestreo más utiliza-
das en la selección de muestras en poblaciones finitas, pero antes de
entrar en tales técnicas, nos planteamos la necesidad de tomar tales
muestras.
Existen circunstancias en las que no es posible observar a la pobla-
ción en su totalidad y, por tanto, se hace necesario recurrir a la toma
de muestras. Tales circunstancias son:
1. Cuando la población es infinita o tan grande que exceda las
posibilidades del investigador.
2. Cuando el proceso sea destructivo esto es, cuando cada observa-
ción de las unidades elementales, lleva consigo su destrucción.
Otras circunstancias que hacen que, aunque no necesario, si sea muy
conveniente el empleo de muestras para hacer inferencias sobre toda la
muestra. Estas pueden ser:
1. Cuando la población sea suficientemente uniforme para deter-
minadas características, de modo que cualquier muestra de esta
población sería una ’buena’ representación de la misma. En esta
situación, observar a toda la población sería un derroche de me-
dios, y la ganancia de información no compensaría la obtenida
a partir de una muestra.
2. Razones económicas. Estas razones son de dos tipos: por un
lado, el ahorro económico propiamente dicho que se obtiene
cuando en vez de observar todos los elementos que componen
El tiempo em- un colectivo, se observa una parte de ellos; pero por otro la-
pleado en realizar do, también existe un ahorro importante en tiempo, y esto lle-
una encuesta cen- va consigo un coste de oportunidad como consecuencia de la
sal a la población anticipación en la toma de decisiones sobre las informaciones
española, desde muestrales.
su diseño hasta 3. Calidad. Toda encuesta conduce a una serie de errores y no
la publicación de solamente de muestreo, sino también de observación. El realizar
resultados, fácil- una encuesta muestral tiene la ventaja sobre el censo de que se
mente supera los observan menos elementos, y por tanto se puede cuidar más la
2-3 años. precisión en la observación o medida de cada unidad (este punto
se analizará con más detalle en la última sección de este tema).
Pasamos ya a describir las principales técnicas de muestreo en pobla-
ciones finitas.
Definición. Llamamos método de muestreo o simplemente muestreo,
al procedimiento mediante el cual se obtiene una o más muestras.
Los métodos de muestreo se clasifican en probabilísticos y no pro-
babilísticos, según que a cada muestra posible se le pueda asignar una
probabilidad de selección o no.
Los métodos de muestreo probabilísticos más importantes son:
1. Muestreo aleatorio con reposición.
Este método de muestreo consiste en observar una unidad y
reponerla a la población; de esta forma, las extracciones son in-
dependientes y todas las unidades tienen la misma probabilidad
de salir elegidas, así como también la tienen todas las muestras
posibles.
Esta técnica de selección coincide con el muestreo en pobla-
ciones infinitas, pues una unidad puede aparecer sucesivas veces
en la muestra.
2. Muestreo aleatorio sin reposición. Con esta técnica de
muestreo, cada unidad observada no se devuelve a la mues-
tra, con lo que cada unidad sólo puede aparecer una vez en la
muestra. Todas las unidades tienen la misma probabilidad de
ser elegidas, pero ésta no es independiente del orden de las ex-
tracciones, sino que dependerá de las unidades que previamente
hayan sido elegidas.
3. Muestreo estratificado. Cuando la población se divide en es-
tratos, el método de muestreo que selecciona de cada uno un
número aleatorio de unidades para formar parte de la muestra,
se denomina muestreo estratificado. Se denomina afijación a la
distribución que se hace de la muestra sobre los diferentes estra-
tos. Las afijaciones pueden ser de diferentes tipos, normalmente
18.3. MéTODOS DE SELECCIóN 143
se utilizan: afijaciones uniformes, proporcionales, de mínima va-

rianza y óptimas.
Una afijación se dice uniforme si todos los estratos aportan
el mismo número de unidades a la muestra.
Llamamos afijación proporcional , aquélla en la que cada es-
trato aporta un número de unidades a la muestra proporcional
a su tamaño.
Una afijación se dice de mínima varianza, si el reparto de
la muestra en los diferentes estratos se hace de forma que la El coste de entre-
varianza del estimador sea mínima. vistar una unidad
Finalmente, se denomina afijación óptima a aquella distri- depende de su
bución de la muestra que, para una precisión fijada, minimiza ubicación, y por
el coste de la encuesta muestral, o recíprocamente, fijado un tanto del estrato
presupuesto o coste, se elige el reparto de la muestra que nos en que se encua-
conduzca a una precisión mayor. dra.
4. Muestreo por conglomerados. Este método de selección
consiste en sustituir las unidades elementales o primarias por
conglomerados o reunión de aquéllas y considerar a éstos como
unidades de muestreo sobre las cuales se seleccionará la muestra
por un método aleatorio.
5. Muestreo sistemático. Este método de muestreo consiste en
dividir la población, una vez ordenada, en un número de grupos
igual al tamaño de la muestra, de modo que cada uno contenga
el mismo número de unidades; a partir de aquí, se elige aleato-
riamente un elemento del primer grupo, formando el resto de la
muestra las unidades que ocupen en su grupo la misma posición
que el primero.
6. Muestreo bietápico. Cuando se hacen selecciones aleatorias
en dos etapas, el muestreo se denomina bietápico. En una prime-
ra etapa se seleccionan los conglomerados, a partir de los cuales
se va a obtener la muestra, y en una segunda etapa es cuando
se muestrean las unidades elementales que la conformarán.
La generalización del muestreo bietápico a más etapas se
denomina muestreo polietápico.
Entre los muestreos no probabilísticos, destacan el muestreo opinático

y el muestreo por cuotas.
El muestreo opinático o intencional deja libertad al entrevistador
que selecciona la muestra para elegir las unidades que la deben com-
poner.
El muestreo por cuotas, es una variante del anterior, donde el entre-

vistador elige un número de unidades proporcional al de las que cum-
plen ciertas condiciones en la población, siendo subjetiva la elección de
esas unidades.
18.4. Métodos de estimación y contrastes

Abordamos en este apartado la estimación y contraste en pobla-
ciones finitas de la media, el total, la proporción y el total de clase,
cuando los métodos de selección son aleatorios con y sin reposición.
Consideremos una población finita de tamaño N , w1 , · · · , wN , so-
bre la cual está definida una variable X que toma valores x1 , · · · , xN
(algunos de los cuales pueden repetirse).
Se denomina media y total poblacional , al valor de las expresiones:
N
� N
�
xi
X̄ = ,y X= xi
i=1
N i=1
respectivamente.
Si la característica a observar es cualitativa, la proporción y el total
de clase poblacional , de la ocurrencia de una determinada modalidad
A, viene dada por:
N
� N
�
Ai
p= ,y A= Ai
i=1
N i=1
respectivamente; siendo Ai un indicador que a cada unidad asigna el

uno o el cero según que esa unidad verifique o no la modalidad A.
Para estimar estas cantidades supongamos que se selecciona una
muestra de tamaño n, (x1 , · · · , xn ) mediante un método aleatorio con
o sin reposición.
⇒ Estimadores insesgados.
Nota 46. Los estimadores:
n
� xi
x̄ˆ = , x̂ = N x̄ˆ
i=1
n
y:
n
� Ai
p̂ = , Â = N p̂
i=1
n
son insesgados para estimar la media, el total, la proporción y el total
de clase respectivamente, cuando la selección es aleatoria con o sin
reposición.
18.4. MéTODOS DE ESTIMACIóN Y CONTRASTES 145
Estos estimadores se conocen como: media muestral , total muestral ,

proporción muestral y total de clase muestral , respectivamente.
⇒ Estimadores de las varianzas.
Distinguiendo el tipo de muestreo, se tiene:
Nota 47. En un muestreo aleatorio con reposición, los estimadores:
� � Ŝ 2 Ŝ2
V�
ar x̄ˆ = , V�
ar (x̂) = N 2
n n
y
p̂q̂ � � p̂q̂
V�
ar (p̂) = , V� ar Â = N 2
n−1 n−1
son insesgados para estimar la varianza de los estimadores de la media,
el total, la proporción
� y el total de clase,
� respectivamente; siendo Ŝ 2 la
� (xi −x̄ˆ) 2
cuasi-varianza Ŝ 2 = ni=1 n−1 , y q̂ = 1 − p̂.
Nota 48. En un proceso de selección aleatorio sin reposición, los es-

tadísticos:
� � � n � Ŝ 2 � n � Ŝ 2
V�ar x̄ˆ = 1 − , V� ar (x̂) = N 2 1 −
N n N n
y
� n � p̂q̂ � � � n � p̂q̂
V�ar (p̂) = 1 − , V� ar Â = N 2 1 −
N n−1 N n−1
son insesgados de la varianza de los estimadores de la media, el total,
la proporción y el total de clase respectivamente (siendo q̂ y Ŝ 2 los
definidos anteriormente).
⇒ Intervalos de confianza.
Habíamos visto con anterioridad que, cuando una variable aleatoria
sigue una distribución normal, el estadístico:
X̄ − µ √
t= n−1
S
sigue una distribución t de Student con n − 1 grados de libertad; siendo
S2
n−1
la varianza estimada.
Si en vez de la varianza muestral S 2 , se emplea la cuasi-varianza Ŝ 2 ,
2
la varianza estimada es: Ŝn , por lo que el estadístico t puede expresarse
como:
X̄ − µ √
t= n
Ŝ
Entonces fijado un nivel de confianza 1 − α, podemos determinar

en las tablas de la distribución t, en la fila correspondiente a n − 1, el
valor de kα tal que:
(18.4.1) P (−kα ≤ t ≤ kα ) = 1 − α
a partir del cual construimos el intervalo:
� �
Ŝ Ŝ
X̄ − kα √ , X̄ + kα √
n n
en el que se encontrará el parámetro poblacional con un nivel de con-

fianza 1 − α.
Basándonos en este intervalo, podemos obtener los correspondientes
intervalos para la media, el total, la proporción y el total de clase, sin
más que sustituir el estimador y su varianza estimada (que depende
del tipo de muestreo y vienen dadas en las notas 47 y 48) en cada caso
por las expresiones respectivas. De este modo se tiene:
1. Muestreo aleatorio con reposición:
i Intervalo de confianza para la media:
� �
Ŝ Ŝ
(18.4.2) x̄ˆ − kα √ , x̄ˆ + kα √
n n
ii Intervalo de confianza para el total:

� �
Ŝ Ŝ
(18.4.3) N x̄ˆ − kα N √ , N x̄ˆ + kα N √
n n
iii Intervalo de confianza para la proporción:

� � � �
p̂q̂ p̂q̂
(18.4.4) p̂ − kα , p̂ + kα
n−1 n−1
iv Intervalo de confianza para el total de clase:

� � � �
p̂q̂ p̂q̂
(18.4.5) N p̂ − kα N , N p̂ + kα N
n−1 n−1
2. Muestreo sin reposición:

i Intervalo de confianza para la media:
� � � �
n Ŝ n Ŝ
(18.4.6) x̄ˆ − kα 1 − √ , x̄ˆ + kα 1 − √
N n N n
18.4. MéTODOS DE ESTIMACIóN Y CONTRASTES 147
ii Intervalo de confianza para el total:

� � � �
n Ŝ n Ŝ
(18.4.7) N x̄ˆ − kα N 1 − √ , N x̄ˆ + kα N 1 − √
N n N n
iii Intervalo de confianza para la proporción:
� ��
n � p̂q̂ n � p̂q̂
(18.4.8) p̂ − kα 1− , p̂ + kα 1−
N n−1 N n−1
iv Intervalo de confianza para el total de clase:
(18.4.9)
� �
��
n � p̂q̂ n � p̂q̂
N p̂ − kα N 1− , N p̂ + kα N 1−
N n−1 N n−1
En cada caso, estos intervalos corresponden a un nivel de confianza
1 − α y kα se determina en la forma señalada anteriormente.
⇒ Contraste de Hipótesis.
Siguiendo el esquema del capítulo anterior, y teniendo en cuenta las
correspondientes expresiones de la varianza estimada, se tiene:
1. Regiones de aceptación para contrastar que el parámetro
poblacional es uno determinado (X̄0 , X0 , p0 , A0 ), a un nivel de
significación α.
i Muestreo con reemplazamiento:
� �
Ŝ Ŝ
(18.4.10) X̄0 − kα √ , X̄0 + kα √
n n
� �
Ŝ Ŝ
(18.4.11) X 0 − kα N √ , X 0 + kα N √
n n
� � � �
p 0 q0 p 0 q0
(18.4.12) p 0 − kα , p 0 + kα
n n
� � � �
p 0 q0 p 0 q0
(18.4.13) A0 − kα N , A 0 + kα N
n n
ii Muestreo sin reemplazamiento:
� � � �
n Ŝ n Ŝ
(18.4.14) X̄0 − kα 1 − √ , X̄0 + kα 1 − √
N n N n
� � � �
n Ŝ n Ŝ
(18.4.15) X 0 − kα N 1 − √ , X 0 + kα N 1− √
N n N n
� ��
n � p 0 q0 n � p 0 q0
(18.4.16) p 0 − kα 1− , p 0 + kα 1−
N n N n
� ��
n � p 0 q0 n � p 0 q0
(18.4.17) A0 − kα N 1− , A 0 + kα N 1−
N n N n
Son las regiones de no rechazo de:
H0 : X̄ = X̄0 , H0 : X = X0 , H0 : p = p0 y H0 : A = A0
respectivamente, frente a las alternativas de ser distintos, con
un nivel de significación α.
En todos los casos, el coeficiente kα se determina de la forma
indicada en la ecuación 18.4.1.
2. Regiones de rechazo para contrastar si el parámetro pobla-
cional es menor o igual a uno determinado (X̄0 , X0 , p0 , A0 ), a
un nivel de significación α.
i Muestreo con reemplazamiento:
� �
Ŝ
(18.4.18) X̄0 + kα √ , +∞
n
� �
Ŝ
(18.4.19) X0 + kα N √ , +∞
n
� � �
p 0 q0
(18.4.20) p 0 + kα , +∞
n
� � �
p 0 q0
(18.4.21) A0 + kα N , +∞
n
ii Muestreo sin reemplazamiento:
� � �
n Ŝ
(18.4.22) X̄0 + kα 1 − √ , +∞
N n
� � �
n Ŝ
(18.4.23) X0 + kα N 1 − √ , +∞
N n
18.5. TAMAñO DE LA MUESTRA Y ERROR DE MUESTREO 149
� ��
n � p 0 q0
(18.4.24) p 0 + kα 1− , +∞
N n
� ��
n � p 0 q0
(18.4.25) A0 + k α N 1− , +∞
N n
Son, respectivamente, las regiones de rechazo para contrastar
las hipótesis nulas:
H0 : X̄ ≤ X̄0 , H0 : X ≤ X0 , H0 : p ≤ p0 y H0 : A ≤ A0
frente a las hipótesis alternativas:
H1 : X̄ > X̄0 , H1 : X > X0 , H1 : p > p0 y H1 : A > A0
donde fijado el nivel de significación α, el coeficiente kα se de-
termina en la tabla de la distribución t, en la intersección de la
fila correspondiente a n − 1 g.l. y la columna en que el área de
una cola coincide con α.
3. Regiones de rechazo para contrastar si el parámetro pobla-
cional es mayor a uno determinado (X̄0 , X0 , p0 , A0 ), a un nivel
de significación α, son las complementarias de las obtenidas en
el punto anterior, sustituyendo kα (que se calcula de la misma
forma), por su opuesto.
Regla de decisión: En todos los casos se reduce a calcular el valor
del parámetro en la muestra, y rechazar o no rechazar la hipótesis
según que éste pertenezca a la correspondiente región de rechazo o de
aceptación.
18.5. Tamaño de la muestra y error de muestreo

Si medimos el error de muestreo como la desviación en términos
absolutos
� entre
� el valor estimado θ̂ y el valor observado en la población
� �
θ, e = �θ̂ − θ�, este error no es conocido porque depende de la muestra
elegida; sin embargo, si conocemos la distribución del estimador pode-
mos calcular el error absoluto máximo que podemos cometer con una
cierta probabilidad p, puesto que, fijado un cierto nivel de confianza
pk , podemos determinar el número k tal que:
��
� �
P �θ̂ − θ� ≤ kσθ̂ = pk
Entonces con una probabilidad pk , el error de muestreo no excederá
de kσθ̂ . De este modo, podemos estimar el error absoluto máximo, con
una probabilidad pk , a partir de la varianza estimada; desglosando para
cada parámetro y cada tipo de selección se tiene:
1. Error absoluto máximo de muestreo para estimar la

media
i Muestreo con reposición:
Ŝ
e = k√
n
ii Muestreo sin reposición:
�
n Ŝ
e=k 1− √
N n
2. Error absoluto máximo de muestreo para estimar el
total
Ŝ
e = kN √
n
�
n Ŝ
e = kN 1 − √
N n
3. Error absoluto máximo de muestreo para estimar la
proporción
�
p̂q̂
e=k
n−1
��
n � p̂q̂
e=k 1−
N n−1
4. Error absoluto máximo de muestreo para estimar el
total de clase
�
p̂q̂
e = kN
n−1
��
n � p̂q̂
e = kN 1−
N n−1
El error máximo
de muestreo y el
tamaño muestral
18.5. TAMAñO DE LA MUESTRA Y ERROR DE MUESTREO 151
varían en sentido
inverso. Estas expresiones muestran cómo el error de muestreo es una función
del tamaño de la muestra con lo cual, fijado el tamaño muestral, pode-
mos determinar aquél valor por debajo del cual se encontrará el error
máximo con un nivel de confianza pk .
Este es el caso en que se realiza una encuesta muestral con un
presupuesto dado, por lo que el número de entrevistas no puede exceder
de uno determinado y queremos conocer cuál será el error absoluto
máximo que podemos cometer.
Sin embargo, el problema podría ser el inverso: si estamos dispuestos
a tolerar un determinado error máximo e, ¿cuál debe ser el tamaño
mínimo de la muestra que nos garantice, con una probabilidad pk , que
el error de muestreo no sea superior a e?.
En este caso, como suponemos que la muestra aún no se ha tomado,
no podemos basarnos en las ecuaciones anteriores puesto que la cuasi-
varianza muestral resultará desconocida. No obstante, si conociésemos
la varianza poblacional σ 2 , entonces podríamos calcular la varianza del
estimador y a partir de ella el tamaño de muestra.
Así los tamaños mínimos para los diferentes estimadores y tipos de
muestreo, en función del error máximo, serían:
1. Tamaño muestral para estimar la media
La varianza de la media viene dada por:
� � σ2
V ar x̄ˆ =
n
entonces e = k √n , y por tanto:
σ
σ2
n = k2
e2
i Muestreo sin reposición:
La varianza del estimador es:
� �
� � N − n σ2
ˆ
V ar x̄ =
N −1 n
de donde sustituyendo se obtiene:
N k2σ2
n=
e2 (N − 1) + k 2 σ 2
2. Tamaño muestral para estimar el total
σ2
V ar (x̄) = N 2
n
con lo cual sustituyendo se obtiene:

σ2
n = k2N 2
e2
La varianza estimada viene dada por:
� �
2 N − n σ2
V ar (x̄) = N
N −1 n
entonces:
k2N 3σ2
n=
e2 (N − 1) + k 2 N 2 σ 2
3. Tamaño muestral para estimar la proporción
pq
V ar (p̂) =
n
por tanto:
pq
n = k2 2
e
� �
N − n pq
V ar (p̂) =
N −1 n
entonces:
k 2 N pq
n=
e2 (N − 1) + k 2 pq
4. Tamaño muestral para estimar el total de clase
� � pq
V ar Â = N 2
n
por tanto:
pq
n = k2N 2 2
e
� � � �
2 N − n pq
V ar Â = N
N −1 n
entonces:
k 2 N 3 pq
n=
e2 (N − 1) + k 2 N 2 pq
18.6. ERRORES AJENOS AL MUESTREO 153
18.6. Errores ajenos al muestreo

En un principio se puede pensar que son más fiables los resultados
obtenidos a través de una encuesta censal que los que se pueden obtener
de una encuesta muestral, puesto que en las primeras no existen errores
de muestreo. Sin embargo, como se señaló con anterioridad, en la elabo-
ración de encuestas intervienen una serie de instrumentos, algunos de
los cuales presentan ciertos sesgos o son fuente de determinados tipos
de error ajenos al muestreo y que ponen de manifiesto que el censo no
siempre es preferible (en cuanto a bondad de los resultados se refiere)
a una encuesta muestral. Nos proponemos en esta sección enumerar
algunos de estos errores y reseñar sus características más importantes.
El cuestionario es el instrumento más importante que se utiliza en la
elaboración de una encuesta, y por tanto una de las principales fuentes
de error.
Los errores que se deben al cuestionario son contrastados mediante
la realización de una encuesta piloto. Este tipo de errores dependerá de
cada aplicación concreta; no obstante, algunas características generales
que deben tenerse en cuenta y que hacen disminuir estos errores son:
redacción y presentación del cuestionario, según el colectivo al que vaya
dirigido; planificación de la época del año, horas del día, etc. en función
de la población a encuestar.
⇒ El listado de unidades: generalmente el listado será inexacto.

Se producirán omisiones y duplicaciones de unidades elementa-
les, o bien aparecerán unidades extrañas al colectivo. Las dupli-
caciones y las unidades extrañas son fáciles de detectar en los
procesos de depuración, no así las omisiones que son evaluables
en las fases de inspección y supervisión.
⇒ Uso inadecuado del listado: esto nos conduce normalmente
a cuatro tipos de errores: confusion de unidades, confusión de
la población, información inexacta sobre unidades que correc-
tamente figuran en el listado e hipótesis errónea acerca de la
estructura de la población.
⇒ El entrevistado: es el socio anónimo de todo sistema estadís-
tico. Generalmente se encuentra influenciado por su base inte-
lectual, emotiva y social.
• Su formación intelectual puede llevarle a menospreciar al-
gunas preguntas: bien porque las considere irrelevantes o
bien por todo lo contrario, que le resulten inasequibles. Es-
to conlleva una serie de errores que se tratan de corregir en
la depuración de los datos.
• Su base emotiva. el entrevistado mantiene una cierta repu-

tación, lo que da lugar a una serie de errores llamados de
’prestigio’; estos errores son difíciles de detectar, pues sur-
gen caprichosamente y no existe una modelización de los
mismos.
• Su condición social, geográfica, profesional, etc., condiciona
también las respuestas del entrevistado; esto hace que sur-
jan errores del tipo de redondeos, comparaciones relativas,
etc., que deben ser considerados.
⇒ Errores de memoria: se denomina sesgo de memoria a los
errores que aparecen en los datos como resultados de olvidos de
memoria. Se sabe que los errores decaen de forma gradual en
el tiempo y no todos los sucesos se olvidan de igual forma. Es-
tos errores guardan estrecha relación con la elección del período
de referencia. Período de referencia es el período de tiempo a
que se refieren los datos recogidos. En relación con el período
de referencia debemos distinguir: su longitud y su localización
en el tiempo. Como se deduce de lo señalado en el punto ante-
En muchas en- rior, cuanto mayor sea el período de referencia, más importantes
cuestas se utiliza son los errores de memoria; por eso, la longitud del período de
la longitud de referencia debe considerarse como un factor importante en la
una semana. calidad de los datos. Por lo que se refiere a su localización en
el tiempo, también los errores de memoria disminuyen cuanto
más próximo esté el período de referencia al momento actual.
Sin embargo, la mayoría de las veces no es posible establecer
períodos tan cortos ni tan próximos como se quiera, puesto que
algunos acontecimientos ocurren en ciclos más o menos regu-
lares, y te tales casos el período debe incluir esos ciclos. Otra
característica a tener en cuenta para fijar el período de referen-
cia es el denominado efecto de extremos. La mayor parte de los
errores de memoria están relacionados con los extremos de este
período, tendiendo a confundir los acaecimientos anteriores a
los extremos con los posteriores a los mismos. La transferencia
de algunos sucesos de dentro a fuera (o viceversa) del período
de referencia cuando están situados al rededor de los extremos
tiene una influencia considerable en este efecto. Un período de
referencia se dice abierto si sus dos puntos extremos están si-
tuados en el pasado y el efecto de extremos puede presentarse
en ambos límites. Por el contrario, si sus puntos de separación
se distinguen claramente en la memoria y no dan lugar a con-
fusiones en cuanto a la localización de sucesos, el período de
18.6. ERRORES AJENOS AL MUESTREO 155
referencia se denomina cerrado. El período de referencia se lla- Sucesos que limi-

ma semiabierto o semicerrado cuando uno de sus extremos es tan o cierran un
abierto y el otro cerrado. Los períodos de referencia cerrados extremo: comien-
son superiores desde el unto de vista de la exactitud, por lo que zo de año, de un
sería conveniente que sus extremos siempre fueran cerrados; no curso académi-
obstante, en la práctica, tal deseo no siempre es posible. Lo más co, un cambio de
habitual es cerrar el extremo inferior mediante algún suceso ra- domicilio, etc.
ro o importante y mantener abierto el extremos superior, que
normalmente alcanza hasta el momento de la entrevista.
⇒ No sabe, no contesta: Este es otro tipo de errores que intro-
ducen sesgos importantes. La disminución de estos sesgos es el
principal motivo por el cual se emplean entrevistadores o enu-
meradores; otras ventajas de la entrevista personal son las de
uniformar las interpretaciones y la de asesorar al entrevistado.
⇒ Sesgo del entrevistador: Sin embargo, los entrevistadores se
convierten en un nueva fuente de errores (pueden influir más
o menos indirectamente sobre el entrevistado incluso hasta el
extremos de que éste modifique su respuesta, como prueban
algunos estudios en el que el porcentaje de alteración es muy
alto), a los que se les denomina sesgo del entrevistador . Este tipo
de error, que aumenta con el número de entrevistas, constituye
una de las justificaciones de nuestra afirmación inicial de que no
se puede asegurar que un censo sea más fiable que una encuesta
muestral.
La enumeración de causas de error que hemos desarrollado no es com-
pleta, pues podrían citarse otras como el problema de las masas o el
efecto de la agregación, sin embargo, nuestro objetivo no es hacer un
análisis exhaustivo de estas fuentes, sino señalar que existe una variada
composición de errores, unos involuntarios y otros premeditados, que
confluyen en un error total que es ajeno al muestreo y aparecen en todo
tipo de encuestas.
Bibliografía
Bibliografía
[1] Alba, U. Nieto d.: Introducción a la Estadística. Madrid : Ed. Aguilar, 1975
[2] Arnaiz Vellando, G.: Introducción a la Estadística Teórica. Valladolid : Ed.
Lex-Nova, 1978
[3] Azorín, F.: Curso de Muestreo y Aplicaciones. Madrid : Ed. Aguilar, 1972
[4] Calot, G.: Curso de Estadística Descriptiva. Madrid : Paraninfo, 1974
[5] Cochran, W.G.: Técnicas de Muestreo. México : Ed.CECSA, 1980
[6] Cramer, H.: Teoría de Probabilidades y Aplicaciones. Madrid : Ed. Aguilar,
1977
[7] Dixon, W.J. y F.J. M.: Introducción al Análisis Estadístico. México : Ed.
Paraninfo, 1965
[8] Downie, N.M. y R.W. H.: Métodos Estadísticos Aplicados. Madrid : Ed. del
Castillo, 1971
[9] E. García España, Sanchez-Crespo J.: Estadística Descriptiva. Madrid : Ed.
INE, 1961
[10] García Barbancho, A.: Estadística Elemental Moderna. Barcelona : Ed.
Ariel, 1973
[11] Guenther, W.C.: Introducción a la Inferencia Estadística. Madrid : Ed. del
Castillo, 1968
[12] Gutierrez Cabría, S.: Bioestadística. Madrid : Ed. Tebar Flores, 1978
[13] Hoel, P.: Introducción a la Estadística Matemática. Barcelona : Ed. Ariel,
1976
[14] Hoel, P.: Estadística Elemental. México : Ed. Continental, 1979
[15] Kreyszig, E.: Introducción a la Estadística Matemática. Principios y Métodos.
México : Ed. Limusa, 1983
[16] Lopez Cachero, M.: Fundamentos y Métodos de Estadística. Madrid : Ed.
Pirámide, 1978
[17] Martín-Guzman, M.P. y F.J. Martín P.: Curso Básico de Estadística Econó-
mica. Madrid : Ed. AC, 1985
[18] Meyer, P.: Probabilidades y Aplicaciones Estadísticas. México : Ed. Fondo
Educativo Interamericano, 1973
[19] Mills, R.L.: Estadística para Economía y Administración. Bogotá : Ed. Mc.
Graw-Hill, 1980
[20] Mood, A.M. y F.A. G.: Introducción a la Teoría de la Estadística. Madrid :
Ed. Aguilar, 1978
[21] Pulido San Román, A.: Estadística y Técnicas de Investigación Social. Ma-
drid : Ed. Pirámide, 1976
[22] Rios, S.: Métodos Estadísticos. Madrid : Ed. del Castillo, 1975
[23] Sanchez-Crespo, J.L.: Curso Intensivo de Muestreo en Poblaciones Finitas.
Madrid : Ed. INE, 1980
157
158 Bibliografía
[24] Vizmanos, J.R. y R. A.: Curso y Ejercicios de Bioestadística. Madrid, 1976

Índice alfabético
A de asimetría de Pearson, 33
acuracidad, 138 γ1 de Fisher, 33
afijación, 142 γ2 de Fisher, 33
de mínima varianza, 143 coeficiente de
proporcional, 143 correlación lineal, 40, 94
uniforme, 143 determinación, 46
afijación óptima, 143 diversificación, 57
ajuste especialización de una zona, 57
exponencial, 43 localización zonal, 57
hiperbólico, 43 regresión, 48
lineal, 42 variación de Pearson, 29
logístico, 43 componente
parabólico, 43 cíclica, 62
potencial, 42 estacional, 62
alisados, 61 extraestacional, 62
amplitud del intervalo, 14 tendencia, 60
análisis condición de independencia, 39, 70,
longitudinal, 51 93
transversal, 51 confianza un intervalo, 120
apuntamiento, 33 conglomerados, 140
asimetría, 32 covarianza, 39, 93
negativa o a la izquierda, 32 cuantil, 24
positiva o a la derecha, 32 cuartil, 25
atributo, 12 cuasi-varianza, 117, 145
cuestionario, 139
B curtosis, 33
binomial, variable o modelo, 81 curva de concentración, 34
C D
cálculo de probabilidades, 69 decil, 25
caracteres, 12 dependencia
casos estadística, 39
favorables, 68 funcional, 38
posibles, 68 desestacionalización, 62
centil, 25 desigualdad de Chebyshev, 97
cociente de localización zonal, 57 desviación absoluta media, 28
coeficiente respecto a
159
160 Índice alfabético
la media, 28 por intervalos, 115

la mediana, 28 puntual, 115
la moda, 28 estimación., 106
desviación estándar, 28 estimador
desviación típica, 28 centrado, 116
Diagrama consistente, 118
de barras, 17 eficiente, 118
escalonado, 17 insesgado, 116
rectangular, 16 estimadores, 107
sectorial, 15 estimadores analógicos, 107
distribución estratificación, 140
agrupada, 14 estratos, 140
bidimensional, 36 experimento aleatorio, 68
binomial, 81 extremos del intervalo, 14
χ2 de Pearson, 107 inferior, 14
condicionada, 92 superior, 14
de frecuencias, 14
de Gauss, 84 F
de Poisson, 83 frecuencia
de probabilidad, 81 absoluta, 12
marginal, 37, 91 absoluta acumulada, 13
normal, 31, 84 marginal, 37
simétrica, 32 relativa, 13
t de Student, 108 relativa acumulada, 13
distribuciones no agrupadas, 14 función
de cuantía, 74
E de densidad, 75
efecto de extremos, 154 de densidad conjunta, 90
elementos, 12 de distribución, 76
encuesta de distribución bidimensional, 90
censal, 138 de probabilidad, 74
muestral, 138 de verosimilitud, 119
entrevistado, 153
error G
cuadrático medio, 117 grado de creencia, 68
de muestreo, 138 grados de libertad, 107
debido al muestreo, 138 H
tipo I, 128 hipótesis
tipo II, 128 aditiva, 60
errores de encuesta alternativa, 127
memoria, 154 compuestas, 127
prestigio, 154 multiplicativa, 60
espacio muestral, 68 nula, 127
esperanza matemática, 77 simples, 127
Estadística Descriptiva, 11 Histograma, 18
Estadística Inductiva, 11
estadístico, 106 I
estereograma, 36 indice
estimación complejo, 51
de Bradstreet-Dûtot, 53 mínima varianza, 117

de Fisher, 55 moda, 22
de Laspeyres, 54 modalidades, 12
de Paasche, 55 momento
de Sauerbeck, 53 centrado, 30, 79
simple, 51 no centrado, 79
indice de concentración no centrados, 30
Gini, 34 momento bidimensional
Lorenz, 34 centrado, 40
indice sintético, 52 no centrado, 40
no ponderados, 52 momentos bidimensionales
ponderaciones constantes, 54 centrado, 93
ponderaciones variables, 54 no centrado, 93
ponderados, 52 muestra, 12
indices de variación estacional, 62 muestreo, 142
individuos, 12 aleatorio con reposición, 142
Inferencia estadística, 11 aleatorio sin reposición, 142
bietápico, 143
L estratificado, 142
la distribución opinático, 143
condicionada, 37 polietápico, 143
Ley de los grandes números, 97 por conglomerados, 143
límites de confianza, 121 por cuotas, 144
línea de equidistribución, 34 sistemático, 143
línea de regresión, 47 muestreo aleatorio
con reposición, 104
M multimodales, 22
marca de clase, 14
marco, 140 N
media nivel
aritmética, 21 de confianza, 120
armónica, 23 de significación, 128
condicionada, 38 nube de puntos, 36
geométrica, 23 número índice, 51
marginal, 38
muestral, 145 P
poblacional, 144 partición, 70
mediana, 22 participación de la variable Xi , 56
método período
de la máxima verosimilitud, 118 actual, 51
de los momentos, 120 base, 51
método de analogía, 107 Pictogramas, 16
método de los mínimos cuadrados, 42 población, 11
método de muestreo, 103, 142 Polígono de frecuencias, 19
no probabilísticos, 142 potencia del test, 128
probabilístico, 142 precisión, 138
métodos probabilidad, 69
no paramétricos, 115 clásica o de Laplace, 68
paramétricos, 115 condicionada, 70
162 Índice alfabético
conjunta, 89 de contingencia, 36
fecuencialista, 68 de correlación, 36
inducida, 74 de números aleatorios, 105
objetiva, 68 estadística, 14
subjetiva, 68 tabulación, 14
probabilidades tamaño
a posteriori o finales, 71 muestral, 12
iniciales o apriori, 70 poblacional, 12
proporción tendencia, 60
muestral, 145 teorema
poblacional, 144 central del límite, 99
de Bayes, 71
R de la probabilidad total, 71
recorrido, 27 total
recorrido intercuartílico, 27 muestral, 145
regresión mínimo cuadrática, 47 poblacional, 144
relación causal, 41 total de clase
repercusión muestral, 145
de la variable Xi , 56 poblacional, 144
porcentual, 56
U
S unidades
serie elementales, 138
cronológica, 59 primarias, 138
histórica, 59
temporal, 59 V
tipo flujo, 59 valor
tipo nivel, 59 esperado, 77
sesgo, 116, 138 modal, 22
sesgo del entrevistador, 155 valores, 12
sistema completo de sucesos, 70 observados, 138
situación verdaderos, 138
actual, 51 variable
base, 51 absolutamente continua, 75
subpoblación, 12 aleatoria, 73
suceso, 68 aleatoria bidimensional, 89
complementario, 69 aleatoria discreta, 74
diferencia, 69 estadística continua, 12
elemental, 68 estadística discreta, 12
intersección, 69 independiente, 39
seguro, 69 tipificada, 29
unión, 69 variable estadística
sucesos bidimensional, 35
incompatibles, 69 variables estadísticas, 12
sucesos disjuntos, 69 variación del índice general, 56
variaciones
T cíclicas, 60
t de Student, 108 estacionales, 60
tabla varianza, 27, 78
condicionada, 38
explicada, 45
marginal, 38
residual, 46
Z
zona
de aceptación, 128
de rechazo, 128

Nociones Básicas de Estadística

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Nociones Básicas de Estadística

Cargado por

Copyright:

Formatos disponibles

Nociones Básicas de Estadística

Rigoberto Pérez (rigo@uniovi.es)

Depósito Legar: O/226-86

Parte 1. Estadística Descriptiva 9

Parte 2. Cálculo de probabilidades 65

11.7. ANEXO: Momentos de una distribución 79

Parte 3. Inferencia Estadística 101

18.6. Errores ajenos al muestreo 153

La publicación de este texto se llevó a cabo en el Servicio de Publi-

En este primer tema, trataremos de delimitar los campos de la Es-

1.1. Estadística Descriptiva e Inferencia Estadística

1.2. Conceptos Básicos

⇒ Cada una de las personas o cosas que componen la población

1.3. Frecuencias absolutas, relativas y acumuladas.

⇒ De esta forma a la variable estadística X se le asocia un sistema

⇒ Llamamos frecuencia relativa acumulada del valor xi , que de-

⇒ Conocido un sistema de frecuencias pueden obtenerse los restan-

⇒ Número e intervalos en que podemos agrupar la distribución

1.5. Representaciones gráficas

Consiste en dividir un círculo en tantos sectores como modalida-

número de valores diferentes de la variable y la longitud de cada salto

En el gráfico de arriba tenemos un diagrama escalonado de frecuen-

Sea X una variable estadística cuyos valores se agrupan en intervalos:L0 −

La información estadística contenida en una tabla suele ser poco

2.1. Media, mediana y moda

Cuando la distribución es agrupada, tomamos los xi como las mar-

4. La suma de las desviaciones de los valores de la variable respecto

5. La media de las desviaciones cuadráticas de los valores de la

La mediana es 2.2. Mediana

En distribuciones no agrupadas, su �cálculo

Cuando la distribución es agrupada, su cálculo puede reducirse al

2.4. Media geométrica y media armónica

Nota 1. Se tiene: H ≤ G ≤ x̄.

2.5. Características y aplicaciones

• Suele ser un promedio útil cuando la variable toma un con-

2.6. Medidas de posición. Cuantiles

⇒ Así, el cuartil de orden r, que designamos por Qr , será el número

En el tema anterior se han definido unas medidas sintetizadoras de

3.1. Medidas de dispersión absolutas

(3.1.1) R = máx xi − mı́n xi

Nota 2. Cuando se trabaja con más de una variable, las varianzas se

3. Si la variable se multiplica por una constante, la varianza apare-

Definición. Llamamos desviación típica o desviación estándar , que

⇒ desviación absoluta media respecto a la mediana:

3.2. Medidas de dispersión relativas

Definición. Llamaremos momento no centrados (o momento centrado

Definición. Denominamos momento centrado respecto a la media o

Medidas de forma y concentración

En este tema se estudian las medidas de forma, que son: la simetría

4.1. Introducción a la distribución normal

Es una variable y su ecuación matemática (nos referimos a la normal reducida o

4.2. Simetría y curtosis. Coeficientes

Los indicadores más utilizados son:

Coeficiente de asimetría de Pearson:

Diremos que una distribución es mesocúrtica, si su grado de cur-

4.3. Índices de concentración

⇒ Índice de Gini o índice de Lorenz

Dos caracteres y sus posibles relaciones

En temas anteriores hemos tratado las características más impor-

5.1. Distribuciones bidimensionales: tabulación y

A este cuadro se le denomina tabla de correlación. Cuando en vez

Cuando las variables X e Y vienen agrupadas en intervalos, las ob-

5.2. Distribuciones marginales y condicionadas

nada los valores con que se presente la otra (distribuciones margina-