P. 1
Nociones Básicas de Estadística

Nociones Básicas de Estadística

Views: 3.739|Likes:
Publicado porRigoberto Perez
Estadística descriptiva, probabilidad e inferencia.
Estadística descriptiva, probabilidad e inferencia.

More info:

Published by: Rigoberto Perez on May 26, 2010
Copyright:Attribution Non-commercial No-derivs

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF or read online from Scribd
See more
See less

09/28/2013

pdf

Nociones Básicas de Estadística

Rigoberto Pérez (rigo@uniovi.es) Dpto de Economía Aplicada. Universidad de Oviedo

A Cova, yo estaba muy apurado con esto cuando ella llegaba

Depósito Legar: O/226-86 Edición 1986 Revisión 2010, V2.0.1

Índice general
Presentación Parte 1. Estadística Descriptiva Capítulo 1. Introducción 1.1. Estadística Descriptiva e Inferencia Estadística 1.2. Conceptos Básicos 1.3. Frecuencias absolutas, relativas y acumuladas. Tabulación 1.4. Distribuciones agrupadas y no agrupadas 1.5. Representaciones gráficas Capítulo 2. Medidas de Posición 2.1. Media, mediana y moda 2.2. Mediana 2.3. Moda 2.4. Media geométrica y media armónica 2.5. Características y aplicaciones 2.6. Medidas de posición. Cuantiles Capítulo 3. Medidas de dispersión 3.1. Medidas de dispersión absolutas 3.2. Medidas de dispersión relativas 3.3. Variable tipificada 3.4. ANEXO: Momentos de una distribución Capítulo 4. Medidas de forma y concentración 4.1. Introducción a la distribución normal 4.2. Simetría y curtosis. Coeficientes 4.3. Índices de concentración Capítulo 5. Dos caracteres y sus posibles relaciones 5.1. Distribuciones bidimensionales: tabulación y representación 5.2. Distribuciones marginales y condicionadas 5.3. Independencia estadística. Tipos de dependencia 5.4. Covarianza y coeficiente de correlación lineal 5.5. ANEXO: Momentos bidimensionales
3

7 9 11 11 11 12 14 15 21 21 22 22 23 23 24 27 27 29 29 29 31 31 32 33 35 35 36 38 39 40

4

Índice general

Capítulo 6. Ajuste 6.1. Ajuste: concepto y significado 6.2. El método de los mínimos cuadrados 6.3. Algunas funciones ajustadas por mínimos cuadrados Capítulo 7. Regresión y correlación 7.1. Correlación: concepto y significado 7.2. Varianza residual y coeficiente de determinación 7.3. Regresión. Línea de regresión 7.4. Regresión lineal: coeficiente de regresión 7.5. Introducción a la predicción (I) Capítulo 8. Números índices 8.1. Concepto de número índice 8.2. Propiedades exigibles a los indicadores 8.3. Índices sintéticos: ponderados y no ponderados 8.4. Cambio de base 8.5. Participación y repercusión 8.6. ANEXO: Índices espaciales Capítulo 9. Series Temporales 9.1. Planteamiento general 9.2. Análisis clásico 9.3. Métodos para el cálculo de la tendencia 9.4. Índices de variación estacional. Desestacionalización 9.5. Variaciones cíclicas 9.6. Introducción a la predicción (II) Parte 2. Cálculo de probabilidades Capítulo 10. Introducción a la probabilidad 10.1. Definiciones de probabilidad 10.2. Definición axiomática de la probabilidad 10.3. Propiedades básicas de la probabilidad 10.4. Probabilidad condicionada y sucesos independientes 10.5. Teorema de la probabilidad Total y teorema de Bayes Capítulo 11. Variables aleatorias 11.1. Variables aleatorias. Conceptos generales 11.2. Variables discretas. Función de probabilidad 11.3. Variables continuas. Función de densidad 11.4. Función de distribución. Propiedades 11.5. Esperanza matemática. Propiedades 11.6. Varianza. Propiedades

41 41 41 42 45 45 46 47 48 48 51 51 52 52 55 55 56 59 59 60 60 62 62 63 65 67 67 69 69 70 70 73 73 74 74 76 77 78

Índice general

5

11.7. ANEXO: Momentos de una distribución Capítulo 12. Distribuciones notables 12.1. Distribución binomial 12.2. Distribución de Poisson 12.3. Distribución normal Capítulo 13. Variables aleatorias bidimensionales 13.1. Variables aleatorias bidimensionales. Conceptos generales 13.2. Distribuciones marginales y condicionadas 13.3. Variables aleatorias independientes 13.4. Momentos bidimensionales 13.5. Propiedades relacionadas con variables independientes Capítulo 14. Teoremas límites 14.1. Desigualdad de Chebyshev 14.2. Ley de los grandes números 14.3. Teorema central del límite Parte 3. Inferencia Estadística Introducción Capítulo 15. Teoría de muestras y distribuciones muestrales 15.1. Teoría de muestras 15.2. Selección de muestras y números aleatorio 15.3. Estadísticos y estimaciones 15.4. Distribuciones utilizadas en pruebas 15.5. Distribución t de Student 15.6. Algunas distribuciones asociadas al proceso de muestreo Capítulo 16. Estimación 16.1. Estimadores. Propiedades 16.2. Métodos para la obtención de estimadores 16.3. Estimación por intervalos Capítulo 17. Contraste de hipótesis 17.1. Planteamiento general 17.2. Algunos test importantes

79 81 81 83 84 89 89 90 92 93 94 97 97 97 99 101 102 103 103 105 106 107 108 110 115 115 118 120 127 127 128

Capítulo 18. Diseño de encuestas. Muestreo en poblaciones finitas137 18.1. Conceptos básicos 137 18.2. Diseño de una encuesta 138 18.3. Métodos de selección 141 18.4. Métodos de estimación y contrastes 144 18.5. Tamaño de la muestra y error de muestreo 149

6

Índice general

18.6. Errores ajenos al muestreo Bibliografía Índice alfabético

153 157 159

PRESENTACIóN

7

Presentación Nociones Básicas de Estadística es un manual escrito en el invierno de 1985-86 y publicado en Marzo de 1986. Este libro nació con el objetivo de elaborar un material que presentase las principales técnicas estadísticas de una forma introductoria pero rigurosa; por eso prácticamente no incluye demostraciones, pero presenta con rigor los conceptos y resultados relativos a los principales métodos estadísticos. En el momento de su publicación inicial, este libro pretendía servir de base para distintos cursos de Estadística de enseñanza universitaria no reglada impartidos a personal de empresas, bancos, instituciones, centros sanitarios, etc., interesados en el conocimiento de las técnicas estadísticas. La situación ha cambiado y este tipo de cursos apenas existen en la actualidad, o en todo caso son mucho más específicos, vinculados generalmente a alguna aplicación informática. Al analizar los motivos de este cambio en las necesidades de formación, supongo que se debe en gran medida al avance de las TIC y las aplicaciones informáticas de Estadística. En la actualidad, cualquier cuaderno de cálculo dispone de un amplio conjunto de herramientas de análisis estadístico, accesible desde cualquier ordenador y con software libre o gratuito, que permite elaborar un análisis estadístico avanzado. Sin embargo, no creo que estos avances garanticen la interpretación correcta de los resultados, ya que ésta se encuentra vinculada a la comprensión de los conceptos y las técnicas. En definitiva, tengo la impresión de que disponemos de volúmenes de información que antes resultaban impensables y de tecnologías que facilitan enormemente su tratamiento, pero en ocasiones nos estamos olvidando del razonamiento estadístico. Este libro nació con unos objetivos claros y ahora, con la perspectiva que dan 25 años, me encuentro muy satisfecho del enfoque, la estructura, el rigor, etc. Se concibió como un material de trabajo que servía de hilo conductor al profesor o de referencia al alumno, pero que lógicamente debía ser complementado con otros materiales (ya que no contiene ejemplos, demostraciones, etc.) y que podía ser utilizado de forma muy flexible (en cursos de 40 horas, distintos móculos de 20 h. , ....). Contemplado desde el año 2010, en un contexto de recursos muy superiores y niveles de exigencia a menudo más reducidos, también supone para mí una satisfacción haber sido capaz de elaborar este manual con una vieja máquina de escribir Olivetti y de recoger los principales contenidos de estadística descriptiva e inferencial con un rigor que hoy a veces sacrificamos.

8

Índice general

La publicación de este texto se llevó a cabo en el Servicio de Publicaciones de la Universidad de Oviedo y el manual nunca generó derechos económicos para el autor. Hace años que el texto estaba agotado y ahora he decidido reescribirlo, en un formato más actual (Latex -> PDF) pero manteniendo el texto y el espíritu de la versión de 1986. Se han cambiado los gráficos, alguna notación, se han incorporado algunas notas laterales (que en muchos casos ya iban incluidas en el texto original), y pocos cambios más. Lógicamente si hoy hiciese un nuevo manual los cambios serían más amplios: introduciría ilustraciones, supuestos desarrollados con alguna aplicación informática, etc. pero ya no sería Nociones Básicas de Estadística. Por eso en esta ocasión he decidido serle fiel y mantener el espíritu que tenía hace 25 años. El libro se publica en formato PDF y está disponible en la Red para que cualquier persona pueda descargalo de forma libre y gratuita. Mayo de 2010.

Parte 1

Estadística Descriptiva

Capítulo 1

Introducción
En este primer tema, trataremos de delimitar los campos de la Estadística Descriptiva y de la Inferencia Estadística. Se definen los conceptos básicos que se utilizan en Estadística Descriptiva y se estudian los primeros pasos en el tratamiento de la información: Tabulación y representaciones gráficas. 1.1. Estadística Descriptiva e Inferencia Estadística

Aunque existen múltiples definiciones de Estadística se hace difícil encontrar una que abarque todos los campos de estudio que en la actualidad conforman esta ciencia, por lo que más que ocuparnos de dar una definición de Estadística nos proponemos su contenido y sus objetivos. Podríamos decir que la Estadística estudia un conjunto de métodos (métodos estadísticos) en relación con la obtención y tratamiento de la información. Los fines que persigue, principalmente son: la toma de decisiones, la contrastación de hipótesis, la estimación de parámetros y la predicción de resultados. Según que las conclusiones obtenidas traten de extrapolarse o no a colectivos mayores, podemos distinguir: Definición. Estadística Descriptiva. Llamamos así a aquella parte de la estadística que se encarga de describir y analizar un conjunto de datos con el objetivo de que la información obtenida sea válida sólo para el conjunto observado. Por el contrario: Definición. Inferencia estadística (o Estadística Inductiva). Llamamos así a aquella parte de la estadística que tiene como objetivo extrapolar las conclusiones obtenidas a conjuntos más numerosos. 1.2. Conceptos Básicos

⇒ Llamamos población al conjunto de personas o cosas a las cuales se refiere una investigación estadística.
11

12

1. INTRODUCCIóN

Los atributos se denota por letras A, B, C, · · · , y sus modalidades por Ai , B i , C i , · · · Variables X, Y, Z, · · · ,y valores xi , yi , zi , · · · .

⇒ Cada una de las personas o cosas que componen la población se denominan elementos o individuos ⇒ Al número de elementos que forman la población se lr denomina tamaño poblacional . ⇒ Llamamos muestra, a un subconjunto de elementos de la población de forma que este subconjunto representa a todo el colectivo. ⇒ El número de individuos que componen la muestra se denomina tamaño muestral . ⇒ Los elementos de la población presentan ciertas propiedades, características o cualidades que denominamos caracteres. ⇒ Cuando se selecciona una parte de la población con arreglo a unos caracteres comunes y determinados, que no presentan los restantes individuos de la población, se denomina subpoblación. ⇒ Los caracteres observados en los elementos de una población pueden ser cualitativos o cuantitativos. ⇒ Cuándo la característica observada es cualitativa, se llama atributo. Las distintas formas de representación de los atributos, se denominan modalidades ⇒ Cuando los caracteres observados son medibles, esto es, pueden cuantificarse numéricamente, se denominan variables estadísticas. ⇒ Las representaciones de las variables se obtienen mediante valores ⇒ Según sea el número de valores que tome la variable podemos clasificarla en discreta y continua. ⇒ Decimos que una variable estadística es discreta, cuando el número de valores diferentes que puede tomar es finito o infinito numerable. ⇒ Decimos que una variable estadística es continua cuando puede tomar un número infinito (no numerable) de valores.

1.3.

Frecuencias absolutas, relativas y acumuladas. Tabulación

⇒ Consideremos una población E, integrada por N elementos y sobre ella observamos una variable estadística X que toma un conjunto de valores diferentes x1 , x2 , · · · , xk , algunos de los cuales pueden aparecer repetidos un determinado número de veces. ⇒ Llamamos frecuencia absoluta del valor xi , que denotamos por ni , al número de veces que este valor se repite en la población.

1.3. FRECUENCIAS ABSOLUTAS, RELATIVAS Y ACUMULADAS. TABULACIóN 13

⇒ De esta forma a la variable estadística X se le asocia un sistema de frecuencias absolutas n1 , n2 , · · · , nk . ⇒ Así podemos formar un cuadro compuesto de dos columnas, una con los distintos valores que toma la variable y otra, con las frecuencias con que toma estos valores, el cual describe el comportamiento de la variable sobre la población. xi ni x1 n1 x2 n2 . . . . . . xk nk ⇒ Denominamos frecuencia relativa del valor xi , que designamos por fi , a la proporción de individuos sobre los cuales la variable toma este valor: ni fi = N ⇒ Llamamos frecuencia absoluta acumulada del valor xi , que denotamos por Ni , al número de veces con que se repite este valor y todos los anteriores a él (supuesto que éstos están ordenados en forma creciente). Ni = n 1 + n 2 + · · · + n i =
i ￿ j=1

nj

⇒ Llamamos frecuencia relativa acumulada del valor xi , que designamos por Fi , a la proporción que su frecuencia absoluta acumulada representa sobre el total de elementos que componen la población: Ni N ⇒ La frecuencia relativa acumulada también puede expresarse como la acumulación de frecuencias relativas de un valor y los anteriores a él. Se tiene: Fi =
k ￿ i=1

ni = N ;

⇒ Conocido un sistema de frecuencias pueden obtenerse los restantes; por tanto, la tabla anterior puede ampliarse con las nuevas columnas:

k ￿ i=1

fi = 1 ; F i =

i ￿ j=1

f j ; Nk = N ; F k = 1

14

1. INTRODUCCIóN

x i n i f i Ni F i x 1 n 1 f 1 N1 F 1 x 2 n 2 f 2 N2 F 2 . .. .. .. . . . . . . . . x k n k f k Nk F k ⇒ Un cuadro formado por la columna de valores de la variable y otra columna cualquiera de frecuencias, se le denomina tabla estadística. ⇒ Al proceso de elaboración de tablas estadísticas se denomina tabulación
Los tamaños ’pequeño’ o ’grande’ lo interpretamos en el sentido de manejabilidad de los datos.

1.4.

Distribuciones agrupadas y no agrupadas

A una tabla estadística del tipo anterior, generalmente se le denomina distribución de frecuencias o simplemente distribución, que de forma genérica se representa por (xi , ni ) . Cuando el número de valores que toma la variable es ’pequeño’, las tablas anteriores son útiles para presentar datos. A estas distribuciones se les denomina no agrupadas. Por el contrario si el número de valores distintos que toma la variable es ’grande’, tiene escasa funcionalidad una tabla de este tipo. Sería más razonable agrupar estos datos con sus correspondientes frecuencias en intervalos, de forma que el número de éstos sea más manejable. Estos intervalos se denotan de forma genérica por (Li−1 , Li ), donde Li−1 y Li son los límites del intervalo y se denominan límite o extremo inferior y superior , respectivamente. Llamamos amplitud del intervalo, que denotamos por ai , a la longitud de este intervalo o diferencia entre el extremo superior y el extremo inferior del mismo. ai = Li − Li−1 Denominamos marca de clase al punto medio de cada intervalo o clase. Generalmente denotaremos por xi la marca de clase del i-ésimo intervalo: Li−1 + Li xi = 2 Cuando una distribución se expresa (o viene ya dada) en intervalos, se denomina agrupada. Sobre estas distribuciones existen varios puntos de discusión a cerca de los cuales no hay unos criterios unánimes, dependerán del problema concreto que estemos estudiando:

Denotar por xi la marca de clase no significa que la variable tome ese valor.

1.5. REPRESENTACIONES GRáFICAS

15

La frecuencia asociada al i-ésimo intervalo es la suma de las frecuencias de los valores encuadrados en el mismo, entendiendo éstas como la repetición de i-ésimo intervalo, que también se denota por ni . Estas distribuciones pueden expresarse en una tabla estadística del siguiente tipo: Li−1 − Li L0 − L 1 L1 − L 2 . . . Lk−1 − Lk x i n i f i Ni x 1 n 1 f 1 N1 x 2 n 2 f 2 N2 ... ... ... ... x k n k f k Nk Fi F1 F2 . . . Fk

⇒ Número e intervalos en que podemos agrupar la distribución ⇒ Amplitud constante o variable para estos intervalos ⇒ Extremos que se incluyen en cada intervalo

La distribución de las repeticiones sobre cada intervalo admite una doble interpretación que condicionará los métodos empleados para obtener los promedios de estas distribuciones: ♦ ’Como se darán valores anteriores y posteriores a la marca de clase, podríamos considerar que este es el único valor que toma la variable en ese intervalo, repitiéndose tantas veces como indica la frecuencia del mismo’ ♦ ’Como no sabemos qué valores asume la variable sobre un intervalo, podemos suponer que su frecuencia se reparte uniformemente sobre todos los valores del mismo’. 1.5. Representaciones gráficas

Ua representación gráfica es el esquema gráfico de una distribución de frecuencias. La representación gráfica es un medio que ayuda en la investigación estadística a resumir o desglosar la información que se encuentra en su totalidad en la tabla estadística; no obstante, el gráfico va a descubrir una parte de esta información que quizás la distribución no nos muestre. Las representaciones gráficas más usuales, distinguiendo para caracteres cualitativos y cuantitativos son: Caracteres cualitativos Consideremos un atributo A que se presenta según las modalidades A1 , · · · , Ak , con frecuencias n1 , · · · , nk . Diagrama sectorial

16

1. INTRODUCCIóN

Consiste en dividir un círculo en tantos sectores como modalidades tenga el atributo, de forma que el área de cada sector sea igual o proporcional a la frecuencia de la modalidad que represente.

Diagrama rectangular Esta representación asigna a cada modalidad un rectángulo de modo que su área sea igual o proporcional a la frecuencia de la misma.

Es una representación útil cuando se compara un atributo en varias poblaciones.

Pictogramas Consiste en un figura característica del atributo, donde su tamaño es tal que su área o volumen sea igual o proporcional a la frecuencia del atributo en la población a la que representa.

1.5. REPRESENTACIONES GRáFICAS

17

Caracteres cuantitativos Sea X una variable estadística que toma valores x1 , · · · , xk , con frecuencias n1 , · · · , nk . Diagrama de barras Consiste en representar sobre un plano de coordenadas, en el eje de abscisas los distintos valores de la variable y en el eje de ordenadas la frecuencia (absoluta o relativa) con que toma esos valores; y para hacer más visible la representación se traza el segmento que une el punto (xi , ni ) (o (xi , fi ) ) , con su abscisa correspondiente (xi , 0). De esta forma aparecen una serie de barras cuya suma es N (o uno según sea el caso). ⇒ Distribuciones no agrupadas

Diagrama escalonado El gráfico que se obtiene cuando se representa sobre un plano la función que a cada número real le asigna su frecuencia acumulada (absoluta o relativa). Es cero hasta llegar al primer valor de la variable y N (o uno) a partir del último valor, el número de saltos es igual al

18

1. INTRODUCCIóN

número de valores diferentes de la variable y la longitud de cada salto coincide con la frecuencia del punto correspondiente.

En el gráfico de arriba tenemos un diagrama escalonado de frecuencias absolutas y en el de abajo con frecuencias relativas.

⇒ Distribuciones agrupadas Sea X una variable estadística cuyos valores se agrupan en intervalos:L0 − L1 , L1 − L2 , · · · , Lk−1 − Lk , que se repiten n1 , n2 , · · · , nk veces, respectivamente. Histograma Es una generalización del diagrama de barras. Se representa en el eje de abscisas los intervalos en los que se agrupa el conjunto de valores de la variable, y sobre ellos se construye un rectángulo de forma que su área sea igual o proporcional a la frecuencia con que se repite ese intervalo.

1.5. REPRESENTACIONES GRáFICAS

19

Polígono de frecuencias Es la representación usual en distribuciones agrupadas correspondiente a frecuencias acumuladas; se basa en el supuesto de que las repeticiones de cada intervalo se reparten de forma uniforme sobre su recorrido, y de esta forma se considera que la frecuencia acumulada del extremo inferior de un intervalo coincide con la del extremo superior del intervalo precedente y la frecuencia acumulada de un intervalo se alcanza sólo en el límite superior del mismo. Esta representación consiste en construir la poligonal resultante de unir mediante segmentos la frecuencia acumulada del extremo inferior con la del superior de cada intervalo, teniendo en cuenta además que la frecuencia acumulada de todo valor anterior a L0 es nula y para valores superiores a Lk alcanza al valor N (o uno si se refiere a frecuencias relativas).

Hemos de hacer notar que podría utilizarse cualquier gráfico que nos permitiera obtener más información sobre el problema tratado, con tal de que sea fiel a esa realidad, que sea una plasmación de la misma.

Capítulo 2

Medidas de Posición
La información estadística contenida en una tabla suele ser poco manejable, aunque se encuentre agrupada en intervalos. Trataremos en este tema de elegir representantes de esta distribución que sinteticen la información contenida en la misma y a estos representantes se les denomina promedios, medidas de centralización o medidas de tendencia. 2.1. Media, mediana y moda

Consideremos una variable estadística X, que toma un conjunto de valores x1 , x2 , · · · , xk , con frecuencias relativas f1 , f2 , · · · , fk . Definición. Llamamos media aritmética de la variable estadística que denotamos por x, al valor de la expresión: ¯
k ￿ i=1

(2.1.1)

x= ¯

xi f i

Cuando la distribución es agrupada, tomamos los xi como las marcas de clase. Propiedades: 1. Si a cada valor de la variable se le suma una constante c, la media también aparece aumentada en esa constante: x+c=x+c ¯ 2. Si a cada valor de la variable se le multiplica por una constante c, la media varía en la misma proporción: cx = c¯. x 3. Si tenemos h subconjuntos disjuntos de ￿ conjunto de valores un ￿￿ h con tamaños N1 , · · · , Nh ¯ ¯ j=1 Nj = N , y medias x1 , · · · , xh , la media del conjunto total se relaciona con la media de los subconjuntos mediante la expresión: (2.1.2) x= ¯ N1 x 1 + · · · + Nh x h ¯ ¯ N
21

22

2. MEDIDAS DE POSICIóN

4. La suma de las desviaciones de los valores de la variable respecto a su media es cero: (2.1.3)
k ￿ i=1

(xi − x) ni = 0 ¯

5. La media de las desviaciones cuadráticas de los valores de la variable respecto a una constante cualquiera p (o un promedio) se hace mínima cuando p = x: ¯ (2.1.4) m´ ın
p k ￿ i=1

(xi − p) ni = 2.2.

2

k ￿ i=1

(xi − x)2 ni ¯

La mediana es un número y no tiene porqué ser un valor de la variable.

Mediana

Definición. Llamamos mediana, que denotamos por M e, aquel número que divide la distribución en dos partes iguales, suponiendo que los datos están ordenados en forma creciente o decreciente. Si la distribución no está agrupada, la mediana viene dada por el valor central si N es impar, o por la semisuma de los dos valores centrales, si N es par. Cuando la distribución viene dada por intervalos, la clase mediana se localiza como en el caso anterior (intervalo i con frecuencia acumulada Ni ≥ N ), y conocida ésta, el valor mediano viene dado por: 2 (2.2.1) M e = Li−1 + 2.3.
N 2

En una distribución puede haber más de una moda, en cuyo caso se denominan multimodales

− Ni−1 ai ni

Moda

Definición. Llamamos moda o valor modal de una distribución, que denotamos por M o , al valor de la variable que más veces se repite. En distribuciones no agrupadas, su ￿ ￿ es inmediato, ya que cálculo será el valor correspondiente a la altura nii más alta. a Cuando la distribución es agrupada, su cálculo puede reducirse al anterior si suponemos que la repetición del intervalo se concentra en la marca de clase. Si suponemos que el reparto de la frecuencia se hace uniforme a lo largo de todo el intervalo modal (i-esima clase), el valor modal viene dado por:

2.5. CARACTERíSTICAS Y APLICACIONES

23

(2.3.1) 2.4.

M o = Li−1 +

ni+1 ai+1 ni−1 ai−1

+

ni+1 ai+1

ai

Media geométrica y media armónica

En determinadas ocasiones, la media, la mediana o la moda no representan bien a una distribución, por lo cual se introducen dos nuevos promedios: media geométrica y media armónica. Definición. Dada una distribución de frecuencias llamamos media geométrica, que designamos por G, al valor de la expresión: ￿ ￿ k ￿￿ fi N xi = ￿ xni i
i=1

No tiene sentido calcular G cuando simultáneamente se tienen valores positivos y negativos.

(2.4.1)

G = x f1 · · · x fk = 1 k

Definición. Llamamos media armónica, que denotamos por H, al valor de la expresión: N + ··· +

k ￿ i=1

No se puede calcular H cuando algún valor es nulo.

(2.4.2)

H=

n1 x1

nk xk

Nota 1. Se tiene: H ≤ G ≤ x. ¯ 2.5. Características y aplicaciones Como ya se citó en la introducción del tema, la idea de promedio aparece ligada a la de sintentizador de la información o representante de un conjunto de datos. Con esta finalidad hemos definido distintas medidas: media aritmética, mediana, moda, ...; lo que nos indica que no existe una que sea idónea en todas las situaciones. Cada una de ellas presenta ventajas e inconvenientes que harán aconsejable o no su cálculo según el tipo de problema a resolver. Aunque desarrollaremos un estudio más riguroso sobre la representatividad de los diferentes promedios en el tema siguiente, señalamos a continuación algunas características y aplicaciones de las medidas definidas: ⇒ Media. Es manejable y utiliza todas las observaciones; sin embargo, es sensible a fluctuaciones de valores altos de la variable.

24

2. MEDIDAS DE POSICIóN

• Suele ser un promedio útil cuando la variable toma un conjunto bastante uniforme de valores, siempre que no haya grandes desviaciones en los mayores. Mediana. Es una medida muy estable, pero presenta el inconveniente de que no utiliza toda la información disponible. • Su aplicación es recomendable sobre todo cuando los datos son muy irregulares. Moda. Presenta las mismas ventajas e inconvenientes que la mediana. • Se aplica cuando algún valor absorbe la mayor parte de las frecuencias. Media armónica. Su interpretación no es tan clara como las anteriores. Tiene la ventaja de utilizar toda la información que suministra la variable pero, por contra, es muy sensible a valores bajos de ésta y no se puede aplicar cuando algún valor de la variable es nulo. • Una de sus principales aplicaciones es el cálculo del rendimiento medio. Media geométrica. Es un promedio que se ajusta muy bien cuando la variable tiene carácter acumulativo. • Una de las aplicaciones típicas es para el cálculo de tasas acumulativas, por ejemplo crecimiento medio de una variable en los cinco últimos años. • Como ya se dijo, no tiene sentido cuando algún valor es nulo o cuando simultáneamente hay valores positivos y negativos.

2.6.

Medidas de posición. Cuantiles

Las medidas anteriores tienen la característica común de indicarnos el centro de la distribución. Ahora estudiaremos otro tipo de medidas que nos indican la posición en que se encuadran ciertas partes de la distribución. La mediana divide a la población en dos partes iguales, podríamos preguntarnos ¿qué valores dividen a la población en cuatro partes iguales?, ¿y los que la dividen en diez?, ... . Las medidas que nos indican estas posiciones se denominan, de forma genérica cuantiles, que como casos particulares incluye cuartiles, deciles, centiles, mililes, ..., según que dividan a la población en cuatro, diez, cien, mil, ..., partes.

2.6. MEDIDAS DE POSICIóN. CUANTILES

25

⇒ Así, el cuartil de orden r, que designamos por Qr , será el número que divide a la población en dos partes, dejando a su izquierda las r cuartas partes. ⇒ El decil de orden r, que denotamos por Dr , será el número que divide a la población en dos partes, dejando a su izquierda las r décimas partes. ⇒ Llamamos centil de orden r, que designamos por Cr , aquél número que divide a la distribución en dos partes y deja a su izquierda las r centésimas partes. Su cálculo es similar al que se emplea para obtener el valor mediano, y las expresiones utilizadas cuando las distribuciones están agrupadas, son: (2.6.1) (2.6.2) (2.6.3) Qr = Li−1 +
rN 4

− Ni−1 ai ni − Ni−1 ai ni

Dr = Li−1 +

rN 10

− Ni−1 ai ni siendo en cada caso, el i-ésimo intervalo donde se encuadra la posición del correspondiente cuantil de orden r. Cr = Li−1 +

rN 100

Capítulo 3

Medidas de dispersión
En el tema anterior se han definido unas medidas sintetizadoras de la información global recogida en una tabla estadística, a la cual trata de representar. En este tema, abordamos el problema de medir la representatividad del promedio elegido. Esta representatividad viene indicada por las medidas de dispersión. 3.1. Medidas de dispersión absolutas

Un promedio representará tanto mejor a una distribución cuanto más próximos estén a él los valores de la variable. A este sentido de la proximidad y/o de la separabilidad de valores, es a lo que se denomina dispersión. Las medidas de dispersión absolutas nos dan una idea de la separación de los valores de la variable pero, en general, no nos permiten comparar la dispersión de dos distribuciones puesto que dependerá en gran medida del tipo de valores que tome la variable. Las medidas de dispersión absoluta más utilizadas son: recorrido, recorrido intercuartílico, varianza, desviación típica y desviación absoluta media respecto a un promedio. Definición. Llamamos recorrido o rango, que designamos por R, a la diferencia entre el mayor y el menor de los valores de la variable: (3.1.1) R = m´x xi − m´ xi a ın

Definición. Llamamos recorrido intercuartílico, que denotamos por RI , a la diferencia entre el tercero y el primero de los cuartiles de la distribución: (3.1.2) RI = Q 3 − Q 1

Definición. Llamamos varianza, que denotamos por S 2 , a la media de las desviaciones cuadráticas de los valores de la variable respecto a la media aritmética.
27

28

3. MEDIDAS DE DISPERSIóN

(3.1.3)

S =

2

Nota 2. Cuando se trabaja con más de una variable, las varianzas se 2 2 denotan por SX , SY , · · · , para indicar a qué variable se refieren.

k ￿ i=1

(xi − x)2 fi ¯

Propiedades: 1. S 2 es no negativa 2. Si a cada valor de la variable se le suma una constante, la va2 2 rianza no varía: SX+c = SX 3. Si la variable se multiplica por una constante, la varianza apare2 2 ce multiplicada por el cuadrado de esa constante: ScX = c2 SX . 4. La varianza de una distribución puede expresarse como: S =
2 k ￿ i=1

x2 f i − x2 ¯ i

Definición. Llamamos desviación típica o desviación estándar , que se denota por S, a la raíz cuadrada de la varianza tomada con signo positivo. Definición. Llamamos desviación absoluta media respecto a un promedio P , que designamos por Dp , al valor de la expresión: DP =
k ￿ i=1

|xi − P | fi

Así tenemos: ⇒ desviación absoluta media respecto a la media: Dx = ¯
k ￿ i=1

|xi − x| fi ¯

⇒ desviación absoluta media respecto a la mediana: DM e =
k ￿ i=1

|xi − M e| fi

⇒ desviación absoluta media respecto a la moda: DM o =
k ￿ i=1

|xi − M o| fi

3.4. ANEXO: MOMENTOS DE UNA DISTRIBUCIóN

29

3.2.

Medidas de dispersión relativas

Estas medidas estudian la dispersión en relación al promedio considerado. Definición. Llamamos coeficiente de variación de Pearson asociado a una distribución, al cociente entre su desviación típica y su media: SX x ¯ Otros coeficientes para medir la dispersión en términos relativos son: (3.2.1) V = Dx DM e DM o ¯ ; VM e = ; VM o = ;··· x ¯ Me Mo Como vemos se trata siempre de un cociente cuyo denominador es el promedio estudiado, y el numerador es la desviación absoluta media respecto a ese promedio. Estos coeficientes se emplean para comparar la representatividad de varios promedios en una distribución, o para comparar la representatividad de un promedio en varias distribuciones. (3.2.2) Vx = ¯ 3.3. Variable tipificada Dados dos variables, por lo general éstas no son comparables. Cuando queremos comparar algunos valores de una y otra variable, tendremos que recurrir a una técnica de tipificación o estandarización de las variables, que consiste en situar las variables en la misma escala para poder comparar sus valores. Definición. Llamamos variable tipificada a aquélla que tiene media cero y varianza uno. Dada una variable estadística X, podemos obtener una tipificación de la misma mediante la transformación: (3.3.1) 3.4. Y = X −x ¯ SX

En una distribución es más representativo aquel promedio cuyo coeficiente de variación sea menor Comparando varias distribuciones, un promedio es más representativo en la que proporcione un coeficiente menor

ANEXO: Momentos de una distribución

Cada momento hace referencia a un orden y, según sea éste, nos indica alguna característica de la distribución. Los momentos (potenciales) se clasifican en centrados y no centrados.

30

3. MEDIDAS DE DISPERSIóN

Definición. Llamaremos momento no centrados (o momento centrado respecto al origen) de orden r, que designamos por ar , al valor de la expresión:
k ￿ i=1

(3.4.1)

ar =

xr fi i

Definición. Denominamos momento centrado respecto a la media o simplemente momento centrado de orden r, que denotamos por mr , al valor de la expresión:
k ￿ i=1

(3.4.2)

mr =

(xi − x)r fi ¯

Relaciones: ￿ ￿ ￿ ￿ ￿ ￿ r r r r (3.4.3) mr = ar − ar−1 a1 + · · · + (−1) a0 ar 1 0 1 r

Capítulo 4

Medidas de forma y concentración
En este tema se estudian las medidas de forma, que son: la simetría y el apuntamiento, y que hacen referencia a la representación gráfica de la distribución. También se analizan las medidas de concentración o desigualdad existente entre los valores de la distribución. Para las primeras, se toma como punto de referencia la distribución normal.

4.1.

Introducción a la distribución normal

Hasta ahora, se utilizó el término distribución en un sentido muy general, identificándose con una tabla estadística. Sin embargo, como más adelante veremos, estas distribuciones son objeto de una idealización matemática obteniéndose unos cuantos modelos a los cuales se ajustan las distribuciones empíricas observadas en la realidad. El más importante de estos modelos es el que se denomina distribución normal ; es el más utilizado porque a él se ajustan, normalmente, la mayor parte de las variables. Este modelo aparece históricamente al estudiar la distribución de los errores de medida. Su gráfica es:

31

32

4. MEDIDAS DE FORMA Y CONCENTRACIóN

Es una variable tipificada: x = ¯ 0, S = 1

y su ecuación matemática (nos referimos a la normal reducida o estándar), es: (4.1.1) 1 −x2 f (x) = √ e 2 2π

Las características intuitivas de esta distribución son: Tiene forma de campana, repitiéndose más los valores próximos al centro y disminuyendo su frecuencia simétricamente a medida que nos alejamos. Las colas son asintóticas al eje de abscisas. Es simétrica, en ella la media, la mediana y la moda coinciden y valen cero; la varianza de esta variable es uno. Su apuntamiento se toma como referencia para comparar las demás distribuciones con respecto a ella. 4.2. Simetría y curtosis. Coeficientes

Definición. Decimos que una distribución es simétrica, si su representación gráfica lo es respecto a la perpendicular trazada por su valor central. En otras palabras, si tomamos esa perpendicular como eje de simetría, diremos que la distribución es simétrica cuando el número de valores a ambos lados del eje son los mismos, equidistantes dos a dos y con idéntica frecuencia. Se denomina asimetría a la falta de simetría en la distribución. La asimetría puede ser positiva o a la derecha y negativa o a la izquierda, según que sea en la cola de la derecha o izquierda del eje donde se encuentre un mayor número de valores (y/o frecuencias). En una distribución simétrica, se tiene: x = M e = M o . Si la ¯ distribución es asimétrica a la derecha, la relación es: M o ≤ M e ≤ x, ¯ y x ≤ M e ≤ M o cuando la asimetría es a la izquierda. ¯

Los indicadores más utilizados son:

4.3. NDICES DE CONCENTRACIóN

33

Coeficiente de asimetría de Pearson: x − Mo ¯ (4.2.1) Ap = S y, coeficiente γ1 de Fisher : m3 (4.2.2) γ1 = 3 S Si en estos coeficientes se obtienen valores positivos, la asimetría será positiva o a la derecha; y asimetría a la izquierda si su valor en negativo. Otras medidas importantes para el estudio de la forma de una distribución son las que nos indican si su apuntamiento es inferior o superior al normal. Estas medidas se denominan de curtosis o apuntamiento. Estos indicadores se utilizan cuando la distribución es unimodal y simétrica o ligeramente asimétrica. El apuntamiento es un término relativo, que tiene sentido cuando se comparan dos distribuciones para saber cuál de ellas es más apuntada o achatada. La distribución que se toma para comparar con ella todas las demás es la normal reducida.

Diremos que una distribución es mesocúrtica, si su grado de curtosis coincide con el de la normal, platicúrtica si es más achatada y leptocúrtica si su apuntamiento es superior. El coeficiente más empleado para medir la curtosis es el denominado γ2 de Fisher , que se define como: m4 (4.2.3) γ2 = 4 − 3 S Este coeficiente tomará un valor positivo, negativo o nulo, según que la curva sea leptocúrtica, platicúrtica o mesocúrtica. 4.3. Índices de concentración

En una normal estándar, el coeficiente γ2 = 0

Estas medidas estudian la desigualdad existente entre los distintos valores que toma la variable; o dicho de otra forma, si consideramos que la variable reparte un todo o total entre los distintos individuos de la población, estos índices analizan la equitatividad de este reparto. Las medidas de concentración más utilizadas son:

T otal = ￿N xi = ￿i=1 k i=1 xi fi

34

4. MEDIDAS DE FORMA Y CONCENTRACIóN

⇒ Índice de Gini o índice de Lorenz Si la variable toma los valores x1 , · · · , xk , con frecuencias n1 , · · · , nk , se define el índice de Gini como: (4.3.1) − xs )nr ns ￿k (N − 1) i=1 xi ni El índice de Lorenz se define como: IG =
r>s (xr ￿

k

(4.3.2)
Puede comprobarse que ambos índices coinciden.

IL = ￿
i ￿

k−1

donde pi = Ni y qi = ￿j=1 x n k N i=1 i i En ambos casos, el índice toma valores comprendidos entre cero y uno, siendo cero en caso de equidistribución (la variable toma el mismo valor sobre todos los individuos) y uno cuando la concentración es máxima (existe un único elemento de la población que absorbe el total de la variable). Si representamos en un eje de coordenadas los pares (pi , qi ), el gráfico resultante sería de la forma:

xj n j

i=1 (pi − qi ) ￿k−1 i=1 pi

La curva de concentración, es una representación muy usual para analizar la concentración de una distribución, y de forma especial cuando se compara la desigualdad de esta distribución en varios períodos de tiempo.

La curva AC se denomina curva de concentración o curva de Lorenz, y la diagonal del primer cuadrante línea de equidistribución o de igualdad perfecta. A medida que la concentración disminuye, la curva tiende a acercarse a la línea de equidistribución; por el contrario si la concentración aumenta, la curva tiende al triángulo ABC.

Capítulo 5

Dos caracteres y sus posibles relaciones
En temas anteriores hemos tratado las características más importantes de una distribución unidimensional. Ahora nos planteamos la observación conjunta de dos variables. Los fines que se persiguen son: ⇒ Analizar el comportamiento individual de las variables cuando se han observado conjuntamente. ⇒ Medir la relación lineal existente entre las dos variables. 5.1. Distribuciones bidimensionales: tabulación y representación

Consideremos una población formada por N elementos o individuos. Sobre esta población se pueden observar dos o más características de forma conjunta (caracteres cuantitativos, cualitativos o mixtos). Definición. Se denomina variable estadística bidimensional , a la observación conjunta de dos caracteres cuantitativos. De forma genérica se denota por (X, Y ). Supongamos que la variable X tome k valores diferentes x1 , · · · , xk , con frecuencias n1. , · · · , nk. ; y la variables Y , h valores distintos y1 , · · · , yh con frecuencias n.,1 , · · · , n.h Denotemos por nij la repetición conjunta del par (xi , yj ) Con esta notación podemos formar la siguiente tabla: Y /X x1 x2 · · · xk n.j y1 n11 n21 · · · nk1 n,1 y2 n12 n22 · · · nk2 n,2 . . ... ... ... ... . . . . yh n1h n2h · · · nkh n.h ni. n1. n2. · · · nk. n.− = N ￿ ￿ ￿ ￿ donde: ni. = h nij ; n.j = k nij ; n.. = k ni. = h n.j = j=1 i=1 i=1 j=1 ￿k ￿h i=1 j=1 nij
35

36

5. DOS CARACTERES Y SUS POSIBLES RELACIONES

A este cuadro se le denomina tabla de correlación. Cuando en vez de caracteres cuantitativos, se trata de caracteres cualitativos, se podría formar un cuadro como el anterior al que se denomina tabla de contingencia. En el caso de que una o las dos distribuciones unidimensionales viniesen agrupadas en intervalos, a la tabla anterior se le agregaría una nueva fila y/o columna formada por las clases de agrupación, y la(s) correspondiente(s) a los valores sería sustituida por las marcas de clase de esta(s) distribución(es). La frecuencia relativa conjunta del par nij (xi , yj ), será: fij = N La distribución conjunta de las variables X e Y se denomina distribución bidimensional , y genéricamente se representa por la terna (xi , yj , nij ). Las representaciones gráficas más usuales de las distribuciones bidimensionales son: la nube de puntos y el estereograma. La nube de puntos consiste en representar sobre un plano de coordenadas los distintos pares (xi , yj ). (Por lo general, se resalta la importancia (frecuencia) que tiene cada punto por el espesor del mismo.)

Cuando las variables X e Y vienen agrupadas en intervalos, las observaciones conjuntas de ambas aparecerán distribuidas por rectángulos (formados por el producto cartesiano de los intervalos de agrupación de dichas variables). En este caso la representación más usual es el estereograma, que consiste en construir paraleleopípedos cuyas bases son los rectángulos anteriores, de modo que su volumen sea igual o proporcional a su frecuencia conjunta nij . 5.2. Distribuciones marginales y condicionadas

En este epígrafe, a partir de una distribución bidimensional, se estudian individualmente las distribuciones de X e Y ante las dos situaciones extremas: distribución de una variable sin tener en cuenta para

5.2. DISTRIBUCIONES MARGINALES Y CONDICIONADAS

37

nada los valores con que se presente la otra (distribuciones marginales); y sabiendo que una variable toma un determinado valor, obtener la distribución de la otra variable (distribuciones condicionadas). Distribuciones marginales. El número de veces que se presenta el valor xi de la variable X será: ni1 + ni2 + · · · + nih , que denotamos por ni. y que figura en la última fila de la tabla de correlación. Así la distribución de la variable estadística X obtenida independientemente de los resultados con que se presenta la variable Y , será: xi ni. x1 n1. x2 n2. . . . . . . xk nk. que se denomina distribución marginal de la variable X. Se define la frecuencia marginal relativa como: ni. fi. = ; N ￿
k ￿ i=1

fi. = 1 ￿

De igual forma, se denomina distribución marginal de la variable estadística Y , al conjunto de valores que toma esta variable junto con sus correspondientes frecuencias sin tener en cuenta lo que ocurre con la variable X, esto es: yj n.j y1 n,1 y2 n,2 . . . . . . yh n.h Y su frecuencia relativa marginal será: f.j =
n.j N

;

Distribuciones condicionadas. Nos planteamos ahora la distribución de una variable condicionada a que la otra se presentó con un determinado valor. Así si sabemos que la variable Y toma un valor yj , la distribución de X condicionada a este valor, será: ￿￿

h j=1

f.j = 1 ￿

38

5. DOS CARACTERES Y SUS POSIBLES RELACIONES

xi /yj nij x1 n1j x2 n2j . . . . . . xk nkj Y la frecuencia relativa de un valor xi condicionado a yj , que denotamos por fi/j , será: ￿ k ￿ ￿ nij fij fi/j = = ; fi/j = 1 n.j f.j i=1 De forma análoga, se define la distribución de Y condicionada a un valor xi , como:

Media marginal: x, y , media ¯ ¯ condicionada: x/yj , y /xi ¯ ¯

yj /xi nij y1 ni1 y2 ni2 . . . . . . yh nih Siendo la frecuencia relativa de un valor yj condicionado a xi : ￿￿ ￿ n f h gj/i = nij = fij ; gj/i = 1 . j=1 i. i. Usamos la notación g para representar la frecuencia relativa, para no confundirla con la anterior en otro par de índices (j, i); pero en general no haremos tal distinción y denotaremos por f frecuencia relativa y distinguiendo fi/j o fj/i como las frecuencias condicionadas de X o de Y Trasladando las características de las variables unidimensionales a las distribuciones marginales y condicionadas, se obtiene: media marginal y media condicionada, varianza marginal y varianza condicionada, ...; entre las cuales pueden establecerse las siguientes relaciones: ⇒ La media de las medias condicionadas coinciden con la media marginal. ⇒ La varianza marginal es igual a la varianza de las medias condicionadas más la media de sus varianzas condicionadas. 5.3. Independencia estadística. Tipos de dependencia

Dadas dos variables X e Y , puede ocurrir que entre ellas existe una relación matemática exacta, en cuyo caso decimos que entre estas variables existe una dependencia funcional .

5.4. COVARIANZA Y COEFICIENTE DE CORRELACIóN LINEAL

39

Diremos que la variable X es independiente de la variable Y , si la distribución de X no depende para nada del valor que tome la variable Y ; esto es, la distribución de X es la misma para cualquier condicionamiento de la variable Y . Formalmente: ∀i = 1, · · · , k , fi/j = fi/j ∗ ; ∀j, j ∗ = 1, · · · , h

Por tanto, si la variable X es independiente de Y , las distribuciones condicionadas de X a cualquier valor de Y coinciden y son iguales a la distribución marginal de X. Nota 3. Así pues, se tiene: condición necesaria y suficiente para que X sea independiente de Y es que: fij = fi. f.j Esta relación se conoce como condición de independencia. Dada la simetría de esta relación, se verifica: ’Si X es independiente de Y , también Y lo será de X’. Entre la dependencia total y la independencia absoluta, existirá un abanico de ’grados’ de dependencia. A esta relación, que no es exacta, se le denomina dependencia estadística. 5.4. Covarianza y coeficiente de correlación lineal

La covarianza es una medida de la variación conjunta (lineal) de dos variables. Definición. La covarianza se denota por SXY y se define como el valor de la expresión:
k h ￿￿ i=1 j=1

(5.4.1)

SXY =

(xi − x) (yj − y ) fij ¯ ¯

que también puede expresarse como:
k h ￿￿ i=1 j=1

(5.4.2)

SXY =

xi yj fij − xy ¯¯

Este valor puede ser positivo, negativo o nulo, indicando una correlación positiva (directa), negativa (inversa) o ausencia total de correlación lineal, respectivamente.

La covarianza nos indica si la relación es positiva o negativa, pero no el grado de la relación.

40

5. DOS CARACTERES Y SUS POSIBLES RELACIONES

Para medir el grado de relación (dependencia) lineal entre dos variables, se introduce rXY rXY = 0 no implica que X e Y sean independientes.

Definición. Denominamos coeficiente de correlación lineal , que denotamos por rXY al valor de la expresión: SXY (5.4.3) rXY = S X SY Este coeficiente es un número que oscila entre -1 y 1; su signo depende del de la covarianza y por tanto, tiene el mismo significado que ésta. Además: ⇒ Cuando existe una dependencia funcional, |rXY | = 1. ⇒ Si las variables son independientes, entonces rXY = 0. Así pues, el coeficiente de correlación lineal en términos absolutos es un número que nos indica el grado de dependencia lineal, que será mayor en la medida en que se acerque a 1 y será menor si su valor se aproxima a cero. 5.5. ANEXO: Momentos bidimensionales Se trata de una generalización de los momentos unidimensionales al caso de dos variables. Llamamos momento no centrado (o centrado respecto al origen) de orden (r, s), que denotamos por ars , al valor de la expresión: ars =
k h ￿￿ i=1 j=1 s xr yj fij i

Denominamos momento centrado (respecto a la media) de orden (r, s) de la variable (X, Y ), que representamos por mrs , al valor de la expresión: mrs = Se verifica:
k h ￿￿ i=1 j=1

(xi − x)r (yj − y )s fij ¯ ¯

m00

a00 = 1 ; a10 = x ; a01 = y ¯ ¯ 2 2 = 1 ; m11 = SXY ; m20 = SX ; m02 = SY

Capítulo 6

Ajuste
En el tema anterior nos hemos ocupado de medir el grado de dependencia (lineal) entre dos variables. Abordamos ahora el problema de encontrar la función que nos expresa tal dependencia. 6.1. Ajuste: concepto y significado

Consideremos una distribución bidimensional (xi , yj , nij ) y supongamos que entre las variables X e Y existe una cierta dependencia estadística. Al no ser funcional esta relación, no existirá una función matemática que de forma exacta exprese esta dependencia. Se trata entonces de buscar la función que mejor ajusta esa relación entre las variables. Supondremos que entre estas variables existe una relación causal , donde la variable X es la causa y la variable Y el efecto producido por esa causa. También se les suele denominar variable explicativa (X) y variable explicada (Y). El problema del ajuste es encontrar la ecuación que mejor ’explique’ el efecto en función de la causa. Este objetivo incluye dos etapas: ⇒ Obtener el modelo matemático o familia de funciones que mejor se adapte a los datos disponibles ⇒ Determinar los parámetros que especifican la función. 6.2. El método de los mínimos cuadrados En lo que sigue, supondremos que es conocido el tipo de función (modelo) que mejor se ajusta a una nube de puntos (representación gráfica usual en estos casos). El problema se reduce a obtener los parámetros de esta función para lo cual existen diversos métodos, siendo el de los mínimos cuadrados el más utilizado. Supongamos que se trata de obtener una función f que nos permita expresar Y = f (X), y que esta función depende de n parámetros β1 , β2 , · · · , βn Y = f (β1 , · · · , βn , X)
41

42

6. AJUSTE

Como la dependencia no es exacta, esta función no pasará por todos los pares (xi , yj ), sino que cometerá ciertos errores eij : (6.2.1) eij = yj − f (β1 , · · · , βn , xi )

El método de los mínimos cuadrados consiste en elegir los parámetros de forma que hagan mínima la suma de todos los errores cuadráticos. Esto es: m´ ın
k h ￿￿ i=1 j=1

β1 ,··· ,βn

e2 nij = m´ ın ij

β1 ,··· ,βn

También podríamos calcular las derivadas parciales de segundo orden y comprobar que son positivas.

La condición necesaria para la existencia de óptimo en un punto es que las derivadas parciales en ese punto se anulen; con lo cual calculando estas derivadas respecto a β1 , · · · , βn e igualando a cero se obtiene un sistema de n ecuaciones con n incógnitas cuya solución (única) determina los parámetros que optimizan la función. Por otra parte, esta función es un paraboloide, con lo cual solo presenta un máximo o un mínimo; el óptimo obtenido no es un máximo puesto que al tratarse de desviaciones, éstas aumentarán cuando los parámetros tienden a infinito. Por tanto el óptimo encontrado tiene que ser un mínimo. 6.3. Algunas funciones ajustadas por mínimos cuadrados

k h ￿￿ i=1 j=1

(yj − f (β1 , · · · , βn , xi ))2 nij

Aunque matemáticamente podemos calcular la recta de Y /X o de X/Y , desde el punto de vista conceptual no podemos invertir la causa y el efecto, y éstos debemos establecerlo antes de hacer el ajuste.

⇒ Ajuste lineal: Si Y = β1 + β2 X, (recta de ajuste de Y sobre X), al sustituir en los pares de datos, se tendrá: yj = β1 + β2 xi + eij , por tanto:
k h ￿￿ i=1 j=1

eij fij =

igualando las derivadas parciales a cero y operando, se obtiene: (6.3.1) Y −y = ¯ SXY (X − x) ¯ 2 SX

k h ￿￿ i=1 j=1

(yj − β1 − β2 xi )2 fij

de forma análoga, la recta de ajuste de X sobre Y , (X/Y ) será: SXY (6.3.2) X − x = 2 (Y − y ) ¯ ¯ SY ⇒ Ajuste potencial:

6.3. ALGUNAS FUNCIONES AJUSTADAS POR MíNIMOS CUADRADOS

43

(6.3.3)

X −x= ¯

SXY (Y − y ) ¯ 2 SY

Y = β1 X β2 , tomando logaritmos, se tiene: log Y = log β1 + β2 log X considerando las variables Y ￿ = log Y , y X ￿ = log X, y el parámetro b1 = log β1 , el modelo se transforma en: Y ￿ = b1 + β2 X ￿ con lo cual podemos proceder según un ajuste lineal sobre las nuevas variables. ⇒ Ajuste exponencial: X Y = β1 β2 . tomando logaritmos se tiene: log Y = log β1 + X log β2 Haciendo la transformación: Y ￿ = log Y , b1 = log β1 , b2 = log β2 , queda: Y ￿ = b1 + b2 X que se resuelve como un ajuste lineal, y deshaciendo el cambio, se obtiene los parámetros que determinan la función inicial. ⇒ Ajuste hiperbólico: 1 Y X = β1 . Se aplica el cambio X ￿ = X . ⇒ Ajuste parabólico: Y = β1 + β2 X + β3 X 2 , entonces: eij = (Yj − β1 − β2 xi − β3 Xi2 ) Las ecuaciones normales resultantes (las que se obtienen al igualar las derivadas parciales a cero) son: a01 = β1 + β2 a10 + β3 a20 a11 = β1 a10 + β2 a20 + β3 a30 a21 = β1 a20 + β2 a30 + β3 a40 donde ars es el momento bidimensional no centrado definido anteriormente. De este sistema de ecuaciones se obtienen los parámetros β1 ,β2 y β3 . ⇒ Ajuste logístico: La curva logística tiene unas características especiales, que se presentan en muchos fenómenos relacionados con el crecimiento de la población. Normalmente, hace referencia al crecimiento de una variable y al tiempo.

44

6. AJUSTE

Se supone que tal magnitud no puede estar por debajo de un cierto valor B, crece de forma continuada pero el principio de ’escasez ’ no le permite superar cierta cantidad A + B (asíntota superior). Su formulación matemática es: A +B 1 + β1 e−β2 t Existen varios métodos para ajustar la curva logística. Fijadas las asíntotas (por información previa) A y A+B, uno de estos métodos basado en los mínimos cuadrados, consiste en transformar la ecuación anterior en: (6.3.4) Y = A −1 Y −B tomando logaritmos puede expresarse como: ￿ ￿ A log β1 − β2 t = log −1 Y −B ￿ A ￿ que haciendo el cambio: b1 = log β1 ;b2 = −β2 ; Y ￿ = log Y −B − 1 , resulta: β1 e−β2 t = Y ￿ = b1 + b2 t Y a partir de aquí, podemos determinar los parámetros con un ajuste lineal por mínimos cuadrados.

Capítulo 7

Regresión y correlación
De nuevo abordamos el problema de medir el grado de relación entre dos variables y la formulación matemática que nos permite expresar el efecto en función de la causa; aunque todo ello con un planteamiento diferente al que se realizaba en capítulos anteriores. 7.1. Correlación: concepto y significado

Habíamos definido la correlación lineal como el grado de relación lineal entre dos variables. Nos planteamos ahora el grado de relación conjunta de dos variables pero en términos generales (que puede ser no lineal). Por otra parte, también es diferente el enfoque de este tratamiento, pues mientras con el coeficiente de correlación lineal, estudiábamos el grado de dependencia ’a priori’ entre las variables (antes de obtener la formulación matemática de tal dependencia); ahora, abordaremos el problema ’a posteriori’, esto es, suponemos resuelto el problema de encontrar la función f (de la cual nos ocuparemos más adelante) que nos permite expresar: Y = f (X) Cuando sustituimos en la relación anterior, la variable X por los ˆ valores observados: x1 , · · · , xk obtenemos unos valores teóricos para Y : y1 , · · · , yk obtenidos a través del modelo anterior. ˆ ˆ ˆ La variable teórica Y viene explicada en su totalidad por la variable explicativa X y por el modelo (función) empleado. Su distribución es la siguiente: yi ni. ˆ y1 n1. ˆ y2 n2. ˆ . . . . . . yk nk. ˆ La media de esta variable coincide con y y su varianza, que se ¯ denomina ￿ varianza explicada, está acotada por la varianza total de Y ￿ 2 2 S Y ≤ SY . ˆ
45

Denotaremos la variable teórica ˆ por Y y la variable empírica Y.

Se supone que los errores por exceso y por defecto se compensan.

46

7. REGRESIóN Y CORRELACIóN

El cociente:
2 Sy ˆ 2 Sy

nos indica la parte de variación total de Y que viene explicada por la variación de X a través del modelo. Este cociente toma valores entre cero y uno, siendo cero si las variables son independientes y uno cuando la dependencia es funcional; además, una mayor dependencia se refleja en un incremento de este cociente. De este modo, este cociente puede ser considerado como una medida de correlación, a la que se denomina coeficiente de determinación y se designa por R2 7.2. Varianza residual y coeficiente de determinación

Si la dependencia no es exacta, el modelo no explicará totalmente el comportamiento de la variable Y , por lo que surgirá una componente errática o residual e, de modo que: yj = yi + eij ˆ
2 Este residuo, será la nueva variable por lo que podemos calcular e y Se ¯ ￿ ￿ ￿k ￿h 2 e = 0 ; Se = i=1 j=1 (yj − yi )2 fij ¯ ˆ

2 La varianza de los errores, Se , se denomina varianza residual . Se tiene:

(7.2.1)

2 2 2 S y = S y + Se ˆ

La varianza residual es una nueva medida de correlación, pues cuanto menores sean los errores, mejor será la correlación y más pequeña la varianza residual. 2 Si la dependencia es funcional, Se = 0; y si las variables son inde2 2 pendientes, Se = Sy . Teniendo en cuenta la relación 7.2.1, el coeficiente de determinación puede expresarse como: (7.2.2) R2 = 1 −
2 Se 2 Sy

Cuando la función f es lineal. resulta:
2 2 2 2 Se = (1 − r2 )Sy ; y Sy = r2 Sy

con lo cual en este caso se tiene la identidad: R2 = r2 .

7.3. REGRESIóN. LíNEA DE REGRESIóN

47

7.3.

Regresión. Línea de regresión

Abordamos ahora la explicitación del modelo. Se conoce con este término de regresión el método estadístico desarrollado para investigar las relaciones entre variables. Consideremos un valor determinado de la variable X (eje de abscisas), xi ; para éste la variable Y tomará diversos valores, de los cuales un valor representativo será la media condicionada y /xi , (podríamos ¯ sustituir el conjunto de valores sobre la vertical en xi por su representante). Si la variable X fuese continua, obtendríamos una sucesión infinita de puntos (representantes) que formarán una curva a la que denominaremos línea de regresión de Y sobre X, (Y /X). Esta línea representaría la nube de puntos. Si la variable X es discreta, los puntos xi son valores aislados y la curva anterior es una sucesión finita o infinita de puntos. No obstante en este caso también se denomina línea de regresión de Y /X. De forma análoga, se podría definir la linea de regresión de X/Y . La línea de regresión se puede considerar como una curva ideal, que en general será desconocida y por lo tanto, tendremos que plantearnos su ajuste o estimación. Aparece así un nuevo concepto que se denomina regresión mínimo cuadrática. Llamamos línea de regresión mínimo-cuadrática, a la curva de ajuste obtenida sobre la distribución bidimensional (¯/xi , xi , ni. ) por el méy todo de los mínimos cuadrados. En otras palabras, se trata de obtener los parámetros β1 , β2 , · · · , βn , que minimizan la expresión:
k ￿ i=1

Algunos autores llaman a éste método tipo II y al visto en el tema anterior anterior tipo I.

(¯/xi − f (β1 , β2 , · · · , βn , xi ))2 fi. y

Pero minimizar esta expresión, equivale a minimizar
k h ￿￿ i=1 j=1

(yj − f (β1 , β2 , · · · , βn , xi ))2 fij

Por lo que la línea de regresión mínimo -cuadrática, coincide con la línea de ajuste obtenida por el mismo método para la distribución empírica (xi , yj , nij ).

48

7. REGRESIóN Y CORRELACIóN

7.4.

Regresión lineal: coeficiente de regresión

Aunque conceptualmente, la línea de ajuste y la línea de regresión son términos diferentes, matemáticamente la función obtenida es la misma. Por tanto, los resultados obtenidos para el tema anterior serán válidos para las líneas de regresión. Así pues, cuando la línea de regresión de Y /X es una recta, ésta vendrá dada por: (7.4.1) (Y − y ) = ¯ SXY (X − x) ¯ 2 SX

A la pendiente de esta recta se la denomina coeficiente de regresión de Y /X y se denota por ry/x , cuyo valor viene deado por: (7.4.2) ry/x = SXY 2 SX

Este coeficiente nos indica la variación producida en el efecto, para una variación unitaria en la causa. Análogamente, llamamos coeficiente de regresión de X/Y , a: rx/y = SXY 2 . SY Características. 1. Las rectas de regresión se cortan en el punto (¯, y ). x ¯ 2. Las pendientes de las rectas de regresión tienen el mismo signo 3. En términos absolutos, la recta de regresión de X/Y tiene mayor pendiente que la recta de Y /X. 4. rx/y ry/x = R2 = r2 . 5. Cuando las variables son independientes, las rectas de regresión son perpendiculares y paralelas a los ejes. 6. Si la dependencia es funcional, las rectas de regresión coinciden. 7.5. Introducción a la predicción (I)

La línea de regresión nos proporciona un modelo teórico mediante el cual la causa explica el efecto. Empíricamente se han observado una serie de valores causales: x1 , · · · , xk , pero lógicamente esta sucesión no recogerá todos los posibles valores que puede tomar la variable explicativa, por lo cual nos podemos plantear ¿qué efecto tendría, previsiblemente, un posible valor causal x∗ no recogido en las observaciones empíricas? Parece claro que una vez obtenido el modelo teórico Y = f (X); para un valor determinado x∗ de X, el valor previsible de Y sería: y ∗ = f (x∗ ). ˆ

7.5. INTRODUCCIóN A LA PREDICCIóN (I)

49

Aunque éste es un planteamiento muy general, cuya solución proviene del campo de las matemáticas, los métodos de regresión nos propor2 cionan otras medidas (Se y R2 ) que acompañando al resultado previsible nos permiten hablar de ciertos márgenes de error en las previsiones y de una fiabilidad de las mismas. 2 La varianza residual Se nos indica la dispersión de los errores alrededor de sus representantes, e y ∗ será el representante teórico de x∗ de ˆ 2 haberse dado este valor de la variable X. Luego Se de ’alguna forma’ (bajo algunas condiciones muy generales de regularidad), nos indica la dispersión en torno a la previsión y ∗ . ˆ S2 ˆ El coeficiente de determinación R2 = Sy nos indica la parte de la 2 y variación total que viene explicada por el modelo, y por lo tanto es una medida de la bondad o fiabilidad del modelo y en consecuencia de la previsión. Así pues, siempre que se efectúa una predicción deberá de ir acompañada de sus márgenes de error y un grado de seguridad en la misma. (Este apartado será posteriormente ampliado).

Capítulo 8

Números índices
En este tema, se plantea la medición relativa de la evolución de una o varias magnitudes. Se estudian los principales ratios utilizados. 8.1. Concepto de número índice Definición. Un número índice es una medida estadística que nos indica la variación de una o varias magnitudes en el tiempo o en el espacio. Un indicador es una medida de comparación entre dos situaciones. La comparación puede ser a lo largo del tiempo (longitudinal ); espacial, cuando en un instante determinado del tiempo (análisis transversal ) se comparan los desequilibrios entre las distintas zonas; o mixta cuando conjuntamente se comparan las variaciones espaciales a lo largo del tiempo. En cualquier caso se compara una situación variable (actual ) respecto a una que se toma de referencia y que se denomina situación base. En lo que sigue, nuestro planteamiento irá enfocado a los índices temporales aunque sería fácilmente interpretable en términos de índices espaciales. Al final del tema, figura un anexo que recoge algunos indicadores especiales específicos. Consideremos el caso más elemental en el que se observa una sola variable estadística X a lo largo de un número de períodos (que a veces denominamos ’años’ aunque su longitud sea otra cualquiera), t = 0, 1, · · · , T . A lo largo de estos períodos la variable toma una serie de valores x0 , x1 , · · · , xT . Al período cero lo llamamos período base (aunque podría considerarse otro período base diferente), y al período t, período actual . Una medida que indica la variación relativa que experimenta la variable X, al pasar del período cero al actual es : xt (8.1.1) It0 = x0 A este indicador se le denomina índice simple. El adjetivo simple indica que se refiere a una sola variable; en contraposición cuando el índice se refiere a dos o más variables se denomina complejo.
51

Multiplicando el indicador por cien, nos indica la variación en tantos por ciento

52

8. NúMEROS íNDICES

8.2.

Propiedades exigibles a los indicadores

Sería deseable que todo número índice satisficiera las siguientes propiedades: 1. Existencia. Un número índice debe ser un numero determinado y no nulo. 2. Identidad. Cuando coincide el período base y el período actual, el indicador tomará un valor unitario (o 100 si se expresa en porcentaje). 3. Homogeneidad. El valor del índice no se altera si se produce un cambio en las unidades de medida. 4. Inversión. Si permutamos el período base y el actual, el índice que se obtiene es el inverso del original. 5. Circular. Podemos expresar la variación (relativa) entre dos períodos mediante el producto de variaciones intermedias. 6. Proporcionalidad. Si se produce una variación proporcional en todas las magnitudes, el índice variará en la misma proporción. Los índices simples satisfacen estas seis propiedades, pero no así los complejos, para los cuales las propiedades anteriores serán un catálogo que nos permitirá comparar la bondad de los diferentes indicadores. 8.3. Índices sintéticos: ponderados y no ponderados

Supongamos ahora que se observa la evolución de variables X1 , X2 , · · · , Xn a lo largo de una sucesión de ’años’ t = 0, 1, · · · , T cuya descripción es la siguiente: Años X1 X2 · · · Xn 0 x10 x20 · · · xn0 1 x11 x21 · · · xn1 . . ... ... . . . ··· . T x1T x2T · · · xnT donde xij denota el valor que la variable Xi toma en el período j. Se podrían formar n series de índices simples que indiquen la evolución de cada una de estas variables o un índice complejo que muestra la variación conjunta de las mismas. Este índice complejo sintetiza la información desagregada de las n variables, por lo que a tales índices se les denomina sintéticos. Los índices sintéticos se clasifican en ponderados y no ponderados, según que las variables dentro de su conjunto tengan diferente o igual peso respectivamente.

8.3. NDICES SINTéTICOS: PONDERADOS Y NO PONDERADOS

53

A partir de la tabla anterior, podemos obtener las siguientes series de índices simples: (base año 0) Años X1 (1) 0 I00 (1) 1 I10 . ... . . (1) T IT 0
(i)

X2 (2) I00 (2) I10 ...
(2) IT 0

··· ··· ··· ··· ···

Xn (n) I00 (n) I10 . . . IT 0
(n)

xit donde It0 = xi0 es el índice simple de la i-ésima variable correspondiente al año t con base el año 0. De lo anteriormente expuesto podemos intuir que el papel de los índices sintéticos dentro de los simples es equivalente al que juega el promedio en relación con las distribuciones; por lo cual las fórmulas de índices sintéticos más utilizados serán promedios de índices simples.

Índices no ponderados. Los índices no ponderados más usuales son: 1. Media aritmética: (8.3.1) It0 = 1 ￿ (i) I n i=1 t0
n ￿ i=1
1 ￿n

n

2. Media geométrica: (8.3.2) Gt0 = ￿

It0

(i)

3. Media armónica: (8.3.3)

4. Media agregativa: Consiste en obtener los agregados de cada año, y con éstos calcular un índice simple. ￿n i=1 xit (8.3.4) At0 = ￿n i=1 xi0

Ht0 = ￿n

n
El agregado es el total del período

1 i=1 I (i) t0

De estos indicadores, por su utilización, destacan de forma especial la media aritmética que se denomina índice de Sauerbeck , y la media agregativa conocida como índice de Bradstreet-Dûtot.

54

8. NúMEROS íNDICES

Índices ponderados. Cuando se tiene en cuenta la distinta importancia que tiene cada magnitud en el conjunto de ellas, y que para cada Xi viene indicada por un peso o ponderación wi , el índice resultante es denominado ponderado. En este caso, aplicando las fórmulas anteriores, se tiene: 1. Media aritmética: n ￿ I (i) wi (W ) t0 (8.3.5) It0 = ￿k i=1 wi i=1 (8.3.6) 2. Media geométrica: ￿
(W ) Gt0

=

3. Media armónica: (8.3.7)

n ￿￿ i=1

(i) It0 ￿

wi ￿

￿n 1

i=1

wi

(W ) Ht0

4. Media agregativa (8.3.8)
(W ) At0

Como en el caso anterior, las fórmulas más empleadas son los de la media aritmética y la media agregativa. Las ponderaciones, en relación con el tiempo, se clasifican en: constantes, cuando no se alteran a lo largo de los años en los que el índice tiene validez, y que generalmente se toma el peso de la magnitud en el año base; y ponderaciones variables, que se cambian año a año, según la importancia que en cada uno tengan las distintas magnitudes. En el primer caso las ponderaciones se denotan por wi0 y se denominan de base fija, y en el segundo se les llama de base móvil y se designan por wit . Cuando en la media aritmética se utilizan ponderaciones de base fija, la fórmula que se obtiene es: (8.3.9) ￿n (i) i=1 I wi0 Lt0 = ￿n t0 i=1 wi0 ￿

n i=1 xit wi = ￿n i=1 xi0 wi ￿

n i=1 wi = ￿ n wi

i=1 I (i) t0

que se conoce como índice de Laspeyres. Si empleamos ponderaciones de base móvil, se obtiene: ￿n (i) i=1 I wit (8.3.10) Pt0 = ￿n t0 i=1 wit

8.5. PARTICIPACIóN Y REPERCUSIóN

55

fórmula que se conoce como índice de Paasche. Se llama índice ideal de Fisher , a la raíz cuadrada del producto de los índices de Laspeyres y de Paasche. Relaciones: ⇒ Estos tres índices están comprendidos entre el mínimo y el máximo de los índices simples. ⇒ Generalmente se tiene: PT 0 ≤ LT 0 . ⇒ El índice de Fisher está comprendido entre los índices de Paasche y de Laspeyres. 8.4. Cambio de base

Supongamos que tenemos una serie de índices con base en el período cero, I00 , I10 , · · · , IT 0 ; y queremos transformar esta serie en otra I0t∗ , I1t∗ , · · · , It∗ t∗ , · · · , IT t∗ , con base en el período t∗ . Para calcular los nuevos índices, consideremos las siguientes relaciones: I0t∗ = It1 0 (Inversión) ∗ Si 0 ≤ t∗∗ ≤ t∗ , entonces: It∗ 0 = It∗∗ 0 It∗ t∗∗ (Circular), por tanto: It∗ t∗∗ = I t∗ 0 It∗∗ 0

de donde: It∗∗ t∗ = It∗1 ∗∗ (Inversión) t Por último si t∗ ≤ t∗∗ ≤ t, entonces se tiene: y despejando se obtiene:

It∗∗ 0 = It∗ t∗∗ It∗ 0 (Circular)

It∗∗ 0 I t∗ 0 Estas fórmulas nos facilitan el cambio de base, permitiéndonos obtener la nueva serie con base t∗ . It∗∗ t∗ = 8.5. Participación y repercusión

Nos proponemos ahora medir el efecto que produce la variación de una magnitud en la variación del índice general. Desarrollamos todo lo que sigue para el índice de Laspeyres, aunque el razonamiento será válido para cualquier otro indicador. El índice general en el período T con base el año cero, será: LT 0 ￿n (i) i=1 I wi0 = ￿n T 0 i=1 wi0

56

8. NúMEROS íNDICES

Supongamos que en el período actual, se produce una variación en las magnitudes que denotamos por ∆X1T , · · · , ∆XnT (algunas de las cuales pueden ser nulas); la variación del índice general viene dada por1: (8.5.1) ￿k (i) (1) (n) ∆It0 w10 ∆It0 wn0 i=1 ∆It0 wi0 ∆Lt0 = ￿n = ￿n + · · · + ￿n i=1 wi0 i=1 wi0 i=1 wi0

donde el i-ésimo sumando será el efecto producido por la variación de la i-ésima variable, al cual denominamos repercusión de la variable Xi en la variación del índice general. (8.5.2) ∆I wi0 Ri = ￿nt0 i=1 wi0
(i)

Llamaremos variación porcentual del índice general, que denotaremos por ∆LT 0 % a la proporción que la variación del índice representa sobre el índice general: ￿n (i) ∆Lt0 i=1 ∆It0 wi0 ∆Lt0 % = 100 = ￿n (i) 100 Lt0 It0 wi0
i=1

Denominamos repercusión porcentual de la magnitud Xi , que denotamos por Ri %, al cociente: Ri % = Ri ∆I wi0 100 = ￿n t0 (i) 100 Lt0 It0 wi0
i=1 (i) (i)

Por último llamamos participación de la variable Xi , en la variación del índice general a: Ri % ∆I wi0 Pi = 100 = ￿n t0 (i) 100 ∆Lt0 % ∆It0 wi0
i=1

8.6.

ANEXO: Índices espaciales

Como se observó con anterioridad, el desarrollo de las secciones previas podría hacerse en términos de índices espaciales sin más que sustituir los períodos 0, 1, · · · , T , por zonas 1, 2, · · · , h. En este anexo, estudiamos algunos índices espaciales que no siguen la línea anterior sino que son específicamente desarrolladas por este tipo de problemas.
1Donde

∆IT 0 denota la variación relativa de la magnitud Xi :

(i)

∆xit xi0

8.6. ANEXO: NDICES ESPACIALES

57

Consideremos n variables estadísticas X1 , · · · , Xn , y h zonas, 1, 2,· · · ,h; denotaremos por xij el valor de la i-ésima magnitud en la jésima zona, x.j la suma de todos los efectivos de la j-ésima zona, xi. la suma de todos los efectivos de la variable Xi y x.. la suma de todos los valores de las n variables en las h zonas. Llamamos cociente de localización zonal , de la magnitud xi , al valor: ￿ ￿ xij x.j xij xi. Lij = = xi. x.. x.j x.. Este cociente expresa el porcentaje que la proporción de efectivos de esta magnitud en la zona j representa sobre el total de la variable, en relación con la proporción de efectivos de la zona respecto del total. Llamamos coeficiente de localización zonal de la variable Xi , en las diferentes zonas, al valor: ￿ h ￿ 1 ￿ ￿ xij x.j ￿ ￿ ￿ CLi = − 2 j=1 ￿ xi. x.. ￿ Denominamos coeficiente de especialización de una zona j, al valor: ￿ n ￿ 1 ￿ ￿ xij xi. ￿ ￿ ￿ CEj = ￿ x.j − x.. ￿ 2
i=1

Estos coeficientes toman valores entre cero y uno, indicando su resultado el grado de localización, especialización y diversificación respectivamente. El valor cero, se corresponde con una localización y especialización mínima, y con una diversificación máxima; correspondiéndose con el valor uno los extremos opuestos.

Llamamos coeficiente de diversificación de la j-ésima zona al valor: ￿ 2 ( n xij ) i=1 CDj = 1 − ￿n 2 n i=1 xij

Capítulo 9

Series Temporales
En este capítulo se estudia la evolución de una variable en el tiempo, pero a diferencia del tema anterior, se considera que el tiempo es la causa de las variaciones que experimenta la variable observada.

9.1.

Planteamiento general

Se denomina serie temporal , cronológica o histórica, a una sucesión de observaciones numeradas de una característica cuantitativa observadas en el tiempo. La variable observada puede ser de tipo flujo o de tipo nivel . En el caso de un nivel o stock, cada observación se refiere a un instante, y en el caso de un flujo, la observación se refiere a un período de tiempo. En general, si denotamos por 1, 2, · · · , T , los períodos o instantes de tiempo y por Y la variable observada, la sucesión y1 , y2 , · · · , yt , donde yt es el valor que la variable Y toma en el instante o período t, se denomina serie temporal. La representación gráfica más usual de las series temporales es la poligonal que une los pares de un diagrama de puntos donde en el eje de abscisas representamos el tiempo y en eje de ordenadas la variable observada.

59

60

9. SERIES TEMPORALES

9.2.

Análisis clásico

Se consideran períodos superiores a 10 años Períodos entre 3 y 5 años

El análisis clásico de las series temporales, considera a Y como una variable estadística y trata de explicarla en función del tiempo. En principio podría plantearse como un modelo general de regresión Y = f (t). Sin embargo, consideramos el tiempo desglosado en sus tres perspectivas de corto, medio y largo plazo, y se cuantificará el efecto que cada uno de estos plazos causa en la evolución de la variable. Llamamos tendencia (o tendencia secular ), que denotamos por T , a la línea general a que tiende la serie a largo plazo. Se denominan variaciones cíclicas, que se denotan por c, aquéllas que experimenta la variable a medio plazo. Y llamamos variaciones estacionales, que se designan por e, aquéllas que se producen en períodos cortos de tiempo (inferiores al año). Así pues, sustituyendo en la ecuación anterior se tiene: Y = f (T, c, e)

Cuando el modelo es multiplicativo, la variación estacional y cíclica se sustituyen por índices de variación, puesto que si no las unidades de la serie aparecerían elevadas al cubo

y como la relación no será exacta, aparecerá también una componente errática o residual que denotamos por u (a veces también se denomina componente accidental, y en la práctica es difícilmente cuantificable). yi = f (Ti , ci , ei ) + ui La función f podría ser una función arbitraria de sus componentes; sin embargo, en la práctica suele presentarse de dos formas diferentes: ⇒ Modelo aditivo: f (T, c, e) = T + c + e ⇒ Modelo multiplicativo: f (T, c, e) = T Ic Ie

con lo que, generalmente, el comportamiento de la variable viene dado por: (9.2.1) o bien (9.2.2) yi = Ti Ici Iei + ui y i = T i + c i + e i + ui

Los métodos empleados para la determinación de algunas componentes que intervienen en la serie, dependerán de la hipótesis que se haga sobre el comportamiento de la misma. 9.3. Métodos para el cálculo de la tendencia

Los métodos más utilizados para obtener la línea de tendencia son:

9.3. MéTODOS PARA EL CáLCULO DE LA TENDENCIA

61

Método gráfico de los puntos medios. Este método se basa en la representación gráfica de la serie. Consiste en unir mediante una poligonal las cimas y mediante otra los valles del gráfico; posteriormente, se trazan las perpendiculares desde las cimas y los valles a la poligonal contraria, y se construye la línea que une los puntos medios de esas perpendiculares, que se considera línea de tendencia de la serie. Método de las medias escalonadas. Este método consiste en dividir la serie en períodos formados por p ’instantes’ cada uno; sobre éstos se calcula la media de los valores de la variable y su valor se asigna al ’instante’ central del período. y 1∗ = y1 + y2 + · · · + yp p
A veces se consideran períodos anuales que puede incluir un número par de instantes. En este caso hay dos instantes centrales, la media móvil se asigna a uno de ellos y luego se centra la serie calculando la media de los dos centrales y asigándosela al otro.

y 2∗ =

yp+1 + yp+2 + · · · + y2p p

∗ La línea que une estos puntos yi se considera la tendencia de la serie.

Método de las medias móviles. Se elige un período de 2p + 1 ’instantes’; y se construye una nueva serie Y ￿ de modo que: ￿
yt =

yt−p + · · · + yt + · · · + yt+p ; ∀t = p + 1, · · · , T − p 2p + 1

Esta nueva serie es un alisamiento de la serie original; y se considera que con estas medias se eliminan las otras componentes, con lo que la resultante será la tendencia de la original. Esta nuevo método representa una evolución sobre los anteriores, puesto que se va calculando una media continua que suaviza la serie. Sin embargo, este método pondera de igual forma los valores próximos al centro que los valores más extremos del intervalo. Pueden definirse otros métodos en esta misma línea, llamados alisados, que ponderan más los valores próximos al actual y esa ponderación va a disminuir en la medida en la que nos alejamos de ese período. Método analítico del ajuste. Este método consiste en realizar un ajuste por mínimos cuadrados. Eligiendo un modelo de función ’suave’ (lineal, exponencial, logístico, ...) quedarán eliminadas las restantes variaciones y por tanto la función obtenida será la línea de tendencia.

62

9. SERIES TEMPORALES

9.4.

Índices de variación estacional. Desestacionalización

La variación estacional se obtiene eliminando de la serie original las restantes variaciones. Para ello agrupamos las variaciones cíclicas y la tendencia en una sola componente, a la que denominamos extraestacional (en ella no figuran las variaciones estacionales), y se denota por Et . Para calcular la componente extraestacional, es necesario incluir algunas hipótesis acerca del comportamiento de la componente residual. Los métodos que comúnmente se utilizan son: el de las medias móviles tomando períodos anuales, y el método del ajuste, considerando como unidad temporal el año. Una vez calculada la componente extraestacional, su eliminación se realiza por diferencia o por cociente de la serie original, según que el modelo sea aditivo o multiplicativo. De la tabla resultante, se eliminan las variaciones residuales o erráticas calculando la media de cada estación a lo largo de los años. Una vez concluidas las etapas anteriores, las cantidades obtenidas corresponden únicamente a las variaciones estacionales de la serie. Estas variaciones se recogen en términos absolutos, por lo que generalmente se calculan unos indicadores de las influencias relativas de cada estación a los que se denomina índices de variación estacional . Los índices de variación estacional son índices simples que, como valor de referencia, generalmente, toman la media de las variaciones estacionales. Llamamos desestacionalización al proceso mediante el cual eliminamos las variaciones estacionales de la serie original. El método seguido para desestacionalizar una serie depende del modelo que siga ésta; cuando la hipótesis es multiplicativa, se divide la serie original entre los índices de variación estacional (expresados en tantos por uno); si el modelo que sigue es aditivo, se le resta a la serie original las variaciones estacionales. 9.5. Variaciones cíclicas

La cuantificación de la componente cíclica es la que presenta un mayor grado de dificultad. Los métodos que suelen seguirse para su estudio son: Método del ciclo medio. Consiste en suponer que existe una regularidad en el movimiento cíclico; con lo cual, formando una serie de épocas mensuales, podemos obtener la elongación y longitud medias para cada una de ellas, y así cuantificar la influencia del ciclo en cada período.

9.6. INTRODUCCIóN A LA PREDICCIóN (II)

63

Método de los residuos. Este procedimiento consiste en determinar un valor denominado ’residuo’ formado por la eliminación sobre el dato bruto de las variaciones estacionales y erráticas. Por tanto, el residuo quedará integrado por la tendencia y el ciclo, esto es: (denotamos el residuo en el período i por di ): di = Ti + Ci o di = Ti Ici En muchos estudios, en vez de aislar el ciclo, se considera el efecto conjunto del ciclo y la tendencia como un todo. Pero si queremos obtener un índice de variación cíclica, dependiendo del tipo de modelo se obtienen en el caso multiplicativo despejando y en el caso aditivo como: di − Ti Ici = Ti 9.6. Introducción a la predicción (II) Cuando se realizan predicciones, se utiliza el método del ajuste, pues tal y como se indicó en su momento, esto nos permite acompañar la previsión de un cierto margen de error y de un determinado grado de seguridad. La previsión para un período t∗ , será el valor representativo de ese período, y que en el caso de las series temporales coincide con el valor de tendencia en t∗ . Sin embargo, cuando se trabaja con este tipo de series, es posible afinar más las predicciones teniendo en cuenta las variaciones estacionales y las variaciones cíclicas, a las que puede estar sujeto el período para el que se hace la previsión. Los métodos a seguir para conseguir este afinamiento en la estimación, dependerán del tipo de problemas y de la previsión de que se trate. Por ejemplo, uno de estos procedimientos consistiría en realizar la estimación sobre la serie desestacionalizada para posteriormente introducir el efecto de la componente estacional.

Parte 2

Cálculo de probabilidades

Capítulo 10

Introducción a la probabilidad
El estudio de la probabilidad se puede abordar desde tres ópticas diferentes: concepto y significado de la probabilidad, su cuantificación numérica, y el cálculo de probabilidades. Por lo que se refiere al primer aspecto: concepto y significado de la probabilidad, existen numerosas concepciones sobre su interpretación, distinguiéndose dos escuelas: la objetivista y la subjetivista (estos puntos se tratarán en la siguiente sección). La cuantificación numérica de la probabilidad es un campo no resuelto satisfactoriamente y muy ligado a otra rama de la matemática: la combinatoria. Este es un tema que no vamos a tratar en este libro. Finalmente, el cálculo de probabilidades, aunque quizás con un título algo engañoso porque no se refiere al modo de calcular probabilidades, sino a un tratamiento formal de las mismas partiendo de un conjunto de axiomas que caracterizan la probabilidad, trata de la modelización de los fenómenos aleatorios más usuales. Es este aspecto de las probabilidades el que fundamenta la inferencia estadística (tercera parte de este manual) y al cual nos vamos a referir.

10.1.

Definiciones de probabilidad

Como ya se ha comentado anteriormente, son muchas las interpretaciones que se pueden hacer sobre el término ’probabilidad’ que fundamentalmente se agrupan en torno a dos concepciones: la objetiva y la subjetiva. La probabilidad es una medida con recorrido continuo entre lo conocido y lo desconocido, y según que la probabilidad trate de sustituir a los términos genéricos de indeterminado o de dudoso surgen las concepciones objetivas y subjetivas, respectivamente Para formalizar las definiciones anteriores, debemos de introducir algunas nociones previas. Toda ciencia parte de ciertos conceptos no definibles, en la teoría de la probabilidad, éstos son los de experimento y resultado.
67

68

10. INTRODUCCIóN A LA PROBABILIDAD

Un experimento se dice aleatorio, si depende del azar. Hasta aquí, este concepto es asumido por las dos tendencias; sin embargo la concepción objetiva reduce los experimentos aleatorios a aquéllos que pueden repetirse de forma indefinida. Cada una de las repeticiones del experimento se denomina prueba. Al conjunto de resultados o casos posibles se denomina espacio muestral o espacio de resultados, y se designa por E. Cada uno de los elementos del espacio E, se llama suceso elemental Al conjunto formado por uno o más sucesos elementales se le denomina suceso 1. Los casos que forman un suceso A, se llaman favorables. Ahora ya estamos en condiciones de definir algunas de estas concepciones: Probabilidad objetiva. ⇒ Concepción de Laplace o clásica. Se define la probabilidad clásica de un suceso A como el cociente entre el número de casos favorables y el de casos posibles. El principal inconveniente que presenta esta definición es que implícitamente establece la hipótesis de que los casos posibles lo son igualmente. ⇒ Concepción frecuencialista. Se define la probabilidad del suceso A, como el valor en torno al cual tiende a estabilizarse su frecuencia relativa cuando el número de pruebas es suficientemente grande. Existe una variante de esta concepción que se basa en el paso al límite. Se supone que el experimento se puede repetir hasta el infinito y entonces se define la probabilidad como el límite de la frecuencia relativa. El inconveniente más importante de esta interpretación es que supone la posibilidad de repetir indefinidamente el experimento, lo cual no siempre es posible. La probabilidad subjetiva. Esta interpretación define la probabilidad asociada a un suceso A, como el ’grado de creencia’ asignando a la ocurrencia de este suceso por un individuo particular. Esta asignación, habitualmente se realiza mediante un sistema de apuestas con las que medimos nuestra confianza o creencia. Esta subjetividad en la asignación de probabilidades a un
definición de suceso es aceptable a un nivel introductorio y encaja en las aplicaciones más usuales. Sin embargo, para una formalización axiomática esta definición no es enteramente exacta.
1Esta

10.3. PROPIEDADES BáSICAS DE LA PROBABILIDAD

69

suceso A, que para dos individuos puede tomar valores diferentes, es su principal inconveniente. 10.2. Definición axiomática de la probabilidad

La caracterización axiomática de la probabilidad, es una idealización matemática en la cual encajan las diferentes interpretaciones de la probabilidad y que por tanto nos permite desarrollar una teoría común del cálculo de probabilidades. De nuevo, antes de definir axiomáticamente la probabilidad, debemos introducir nuevos conceptos: ⇒ Dado un suceso A, llamamos suceso complementario de A, que ¯ denotamos por Ac o A. aquél que incluye todos los resultados que no son parte de A. ⇒ Denominamos suceso seguro, al que está formado por todos los resultados posibles (coincide con el espacio muestral y se denota por E). Llamamos suceso imposible o vacío, que denotamos por ∅, al complementario del suceso seguro. ⇒ Dados dos sucesos A y B, denominamos suceso unión, que denotamos por A ∪ B, al suceso formado por todos los sucesos elementales que pertenecen a A o a B (o a ambos). ⇒ Llamamos suceso intersección que designamos por A ∩ B, al suceso formado por los resultados que pertenecen a A y a B. ⇒ Dos sucesos se dicen incompatibles o disjuntos, si el suceso intersección de ambos es vacío. ⇒ Se llama suceso diferencia, que se denota por A − B al suceso formado por los resultados de A que no están en B. Consideremos un experimento aleatorio, y sea E el espacio muestral o de resultados. Denotamos por A la colección de todos los sucesos definidos anteriormente, obtenidos a partir de E. Sobre la clase A podemos establecer la siguiente definición: Llamamos probabilidad a una aplicación de conjuntos: verificando los siguientes axiomas: 1. P (A) ≥ 0, ∀A ∈ A 2. P (E) = 1 3. ∀A, B ∈ A , con A ∩ B = ∅ , ⇒ P (A ∪ B) = P (A) + P (B) 10.3. Propiedades básicas de la probabilidad A partir de la definición anterior, se obtienen de forma inmediata las siguientes propiedades: P : A ∈ A → P (A) ∈ ￿+

Las interpretaciones de la probabilidad definidas en el apartado anterior satisfacen esta axiomática. Por ejemplo en la concepción clásica, el número de casos favorables a cualquier suceso es no negativo, en el suceso seguro casos favorables y posibles coinciden, t los casos favorables de dos sucesos, que no tienen ninguno en común, será la suma de los casos favorables de cada suceso. Estas consideraciones nos conducen a los axiomas anteriores.

70

10. INTRODUCCIóN A LA PROBABILIDAD

1. 2. 3. 4. 5.

10.4.

¯ P (A) = 1 − P (A) P (∅) = 0 Si A ⊆ B ⇒ P (A) ≤ P (B) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) n Si A ￿n 1 , · · · , An ∈ A, y Ai ∩ Aj = ∅ ∀i ￿= j, ⇒ P (∪i=1 Ai ) = i=1 P (Ai ) Probabilidad condicionada y sucesos independientes

Dado un suceso B ∈ A tal que P (B) > 0, definimos la probabilidad de cualquier suceso A condicionado a B, como: P (A/B) = P (A ∩ B) P (B)

Esta definición de probabilidad condicionada satisface la axiomática anterior. De igual forma, si P (A) > 0, entonces: P (B/A) = de donde: (10.4.1) Se dice que un suceso A es independiente de B si: P (A/B) = P (A) Por tanto sustituyendo en 10.4.1, se tiene: de donde P (B/A) = P (B) Así pues, se tiene que si A es independiente de B entonces también B es independiente de A, y esto equivale a: (10.4.2)
Esta sucesión de sucesos, también se denomina sistema completo de sucesos A P (B/Ai ), se le denomina verosimilitud

P (A ∩ B) P (A)

P (A ∩ B) = P (A/B)P (B) = P (B/A)P (A)

P (A ∩ B) = P (A)P (B) = P (B/A)P (A)

Relación a la que se conoce como condición de independencia. 10.5. Teorema de la probabilidad Total y teorema de Bayes

P (A ∩ B) = P (A)P (B)

Dada una sucesión de sucesos A1 , · · · , An ∈ A, se dice que forman una particióndel espacio muestral E, si verifican: A cada uno de los sucesos que componen una partición, se les llama hipótesis o causa, y a sus probabilidades iniciales o apriori ∪n Ai = E, P (Ai ) > 0, ∀i = 1, · · · , n, y Ai ∩ Aj = ∅, ∀i ￿= j i=1

10.5. TEOREMA DE LA PROBABILIDAD TOTAL Y TEOREMA DE BAYES 71

Teorema de la probabilidad total: Dado un suceso B ∈ A y una partición A1 , · · · , An de E, la probabilidad de B vienen dada por: n ￿ (10.5.1) P (B) = P (B/Ai )P (Ai )
i=1

Teorema de Bayes: Dada una partición de E y un suceso B, con P (B) > 0, entonces se verifica: P (B/Ai )P (Ai ) (10.5.2) P (Ai /B) = ￿n i=1 P (B/Ai )P (Ai ) El teorema de Bayes, tiene una interpretación muy intuitiva; nos indica como se altera el sistema de probabilidades iniciales P (A1 ), · · · , P (An ) cuando se dispone de información adicional (se ha realizado una prueba obteniéndose el suceso B), transformándolas en un nuevo sistema de probabilidad P (A1 /B), · · · , P (An /B), que denominaremos probabilidades a posteriori o finales. Si consideramos el suceso B como un ’efecto’, los números P (Ai /B) también podrían interpretarse como: ’La probabilidad de que Ai haya sido la causa o hipótesis del efecto B’.

Capítulo 11

Variables aleatorias
En el tema anterior, se han iniciado el estudio de la Teoría de la Probabilidad, que fundamentalmente se ocupa de indicar el grado de certeza en la ocurrencia o no de un determinado suceso, al realizar un experimento. Cada experimento aleatorio se presenta con unos resultados que, a veces, pueden cuantificarse numéricamente. Sin embargo, cuando se describen fenómenos aleatorios de masa, tal probabilidad se hace indispensable, siendo necesario expresar los resultados mediante datos cuantitativos. Por otra parte, el resultado de un experimento aleatorio no está predeterminado, sino que depende del azar; por tanto esos datos numéricos no son constantes sino que son magnitudes aleatorias. Nos dedicamos en este tema al estudio de tales magnitudes. 11.1. Variables aleatorias. Conceptos generales Una cantidad variable que expresa el resultado de un experimento aleatorio, se denomina variable aleatoria o estocástica (v.a.). O bien de manera más formal: Definición. Dado un experimento ζ, que tiene un espacio muestral asociado E, se llama una variable aleatoria 1 a una función X que a cada elemento w ∈ E le asigna un número real (único) X(w) ∈ ￿.

Una variable aleatoria estará caracterizada cuando se conozcan los valores que puede tomar, así como las probabilidades asociadas a los mismos. ⇒ Probabilidad inducida Denotamos por P ￿ (X = x), la probabilidad con que la variable aleatoria X toma un determinado valor x; y por P ￿ (x1 < X ≤ x2 ), la probabilidad de que X tome un valor cualquiera en el intervalo (x1 , x2 ] (x1 < X ≤ x2 , es un suceso en el espacio muestral de la variable aleatoria).
definición es ambigua y no necesariamente cierta, pues podrían darse funciones que satisfaciendo lo anterior, no sean variables aleatorias. No obstante, estas funciones no suelen presentarse en las aplicaciones más comunes.
73
1Esta

74

11. VARIABLES ALEATORIAS

La probabilidad inducida por un suceso B, es igual a la probabilidad del suceso original que X transforma en B

Sin embargo, la medida de probabilidad se ha definido sobre el conjunto de sucesos posibles que pueden aparecer al realizarse el experimento aleatorio y que no tienen porqué coincidir con los valores que tome la variable aleatoria. Así pues, será necesario definir esta nueva función de probabilidad inducida por la variable X, de modo que sea compatible con la medida de la probabilidad asociada al experimento. Definición. Sea ζ un experimento aleatorio y E su espacio de muestras. Sea X una variable aleatoria y B un suceso en el espacio de valores de la variable, definimos P ￿ (B) como: P ￿ (B) = P ￿ (X ∈ B) = P (x ∈ E|X(w) ∈ B) En lo sucesivo designaremos por P a ambas probabilidades 11.2. Variables discretas. Función de probabilidad

Definición. Decimos que una variable aleatoria X es discreta cuando el conjunto de valores que puede tomar es finito o infinito numerable. Sea {x1 , · · · , xn , · · · } el conjunto de valores posibles que puede tomar la variable X; a cada resultado posible xi le asociamos un número P (X = xi ) = P (xi ) = pi que llamaremos probabilidad de xi . De este modo al conjunto de valores, se le asocia un sistema de probabilidades {p1 , · · · , pn , · · · } que deben satisfacer: ￿ pi ≥ 0 , ∀i ; pi = 1
i

La función P que a cada xi le asigna un número P (xi ) se denomina función de probabilidad o función de cuantía. 11.3. Variables continuas. Función de densidad

Una variable aleatoria se dice que es continua cuando el conjunto de valores que puede tomar es infinito no numerable; o dicho en otras palabras, cuando entre cada dos valores posibles la variable puede tomar infinitos valores. Nota 4. Como los valores no son contables, en las variables continuas no tiene sentido hablar del i-ésimo valor; ni tampoco de la probabilidad de un determinado valor xi , pues la probabilidad de un punto aislado será cero.

11.3. VARIABLES CONTINUAS. FUNCIóN DE DENSIDAD

75

Definición. Una variable aleatoria, se dice que es absolutamente continua si existe una función f definida sobre el conjunto de valores de la variable, que satisface: 1. f (x) > 0, ∀x ´∞ 2. −∞ f (x)dx = 1 3. ∀a, b ∈ ￿ | − ∞ < a < b < ∞ , entonces: (11.3.1) P (a < X ≤ b) = ˆ
b

f (x)dx

a

Nota 5. Supongamos que la variable x toma valores en el intervalo (a, b). No podemos numerar los puntos de este intervalo, pero si podríamos dividirlo en una sucesión numerable de subintervalos I1 , · · · , In , · · · con amplitudes h1 , · · · , hn , · · · . Supongamos que el i-ésimo intervalo Ii , es de la forma: [x, x + h). Podemos preguntarnos ¿Cual es la probabilidad de que X tome valores en ese intervalo? A partir de 11.3.1, esta probabilidad viene dada por: ˆ x+h P (x ≤ X < x + h) = f (x)dx = hf (y)
x

donde y es un valor intermedio del intervalo [x, x + h) Despejando se tiene: f (y) = P (x ≤ X < x + h) ) h

Este resultado es derivado del teorema del valor medio del cálculo diferencial

donde el cociente de la derecha representa la densidad de probabilidad asociada al intervalo [x, x + h). Tomando el límite cuando h → 0, se obtiene: P (x ≤ X < x + h) f (x) = l´ ım h→0 h que intuitivamente se puede interpretar como la densidad de probabilidad asociada al punto x. Así pues, f asociaría a cada punto x su densidad f (x), por lo que se denomina función de densidad . Nota 6. En lo sucesivo cuando nos refiramos a variables continuas, nos limitaremos a las absolutamente continuas; aunque en un abuso de lenguaje las denominaremos simplemente continuas.

Sería ’aproximadamente’ la densidad del intervalo infinitesimal [x, x + h) cuando h → 0.

76

11. VARIABLES ALEATORIAS

11.4.

Función de distribución. Propiedades

La medida de probabilidad es una función de conjunto y resulta poco manejable para su tratamiento matemático. Vamos a definir una función de punto, a partir de la cual puede obtenerse la probabilidad de cualquier intervalo (a, b] y que solvente los problemas planteados por ésta. Para ello, consideremos para cada x, los sucesos de la forma (X ≤ x), (aquel subconjunto A ⊂ E tal que al aplicarle x a cada elemento de A se obtiene un valor menor o igual que x). Estos sucesos, así como sus probabilidades (P (X ≤ x)), vienen determinados por el valor de x. Definición. Llamamos función de distribución, (f.d.) de la variable aleatoria X, que designamos por F , a aquella función que a cada x le asigna el valor: (11.4.1) F (x) = P (X ≤ x)

Nota 7. Si consideramos dos números reales cualesquiera a y b, tal que a < b; entonces el suceso (X ≤ b) puede expresarse como la unión de dos sucesos disjuntos: por tanto tomando probabilidades, obtendremos: de donde sustituyendo y despejando, se tiene: (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b)

P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b)

La probabilidad de que la variable tome cualquier valor finito es 1 y la de que no tome ninguno es 0

(11.4.2) Propiedades:

P (a < X ≤ b) = F (b) − F (a)

1. La función de distribución es acumulativa, por tanto, x1 ≤ x2 ⇒ F (x1 ) ≤ F (x2 ) 2. F (+∞) = l´ x→∞ F (x) = 1 ım 3. F (−∞) = l´ x→−∞ F (x) = 0 ım 4. F es continua a la derecha. Para calcular la función de distribución debemos distinguir si la variable X es discreta o continua. ⇒ Función de distribución en el caso discreto

11.5. ESPERANZA MATEMáTICA. PROPIEDADES

77

Si X es una variable aleatoria discreta, entonces: ￿ (11.4.3) F (x) = P (X ≤ x) = P (xi )
xi ≤x

Nota 8. La función de distribución en el caso discreto es discontinua, donde el número de saltos viene indicado por el número de valores que toma la variable, el salto que se produce en cada punto es igual a la masa de probabilidad de ese valor, y entre cada dos valores consecutivos la función es constante. Nota 9. Conocida la función de distribución podemos calcular la ley de probabilidad, puesto que: (11.4.4) ⇒ Función de distribución en el caso continuo Si X es una variable aleatoria continua, su función de distribución viene dada por: ˆ x (11.4.5) F (x) = P (X ≤ x) = P (−∞ < X ≤ x) = f (x)dx Nota 10. En línea con la nota anterior, conocida la función de distribución podemos obtener la función de densidad como: dF (x) dx Su representación gráfica es una línea creciente y continua f (x) = 11.5. Esperanza matemática. Propiedades
−∞

P (X = xi ) = F (xi ) − F (xi−1 )

Podría definirse una v.a. continua como aquella cuya f.d. es continua

Cuando un experimento aleatorio se realiza un determinado número de veces, se tiene una variable estadística y podemos calcular su media aritmética. Cuando el experimento aún no se ha realizado, se tiene una variable aleatoria y el homólogo a ese valor central se denomina esperanza matemática o valor esperado de la variable. El cálculo de la esperanza matemática depende del tipo de variable: ⇒ Caso discreto: Sea X una v.a. discreta que puede tomar un conjunto de valores x1 , · · · , xn , · · · con probabilidades p1 , · · · , pn , · · ·, se define el valor esperado de esta variable, que se denota por E(X), como el valor de la expresión: (11.5.1) E(X) =
∞ ￿ i=1

xi P (xi )

78

11. VARIABLES ALEATORIAS

⇒ Caso continuo: Sea X una v.a. continua y sea f (x) su función de densidad. Se define la esperanza matemática como el valor de la expresión: ˆ ∞ (11.5.2) E(X) = xf (x)dx Nota 11. Estas expresiones no siempre existen, la esperanza será indeterminada cuando la serie o la integral no sean convergentes. Nota 12. Si consideramos una función g de la variable aleatoria X, g(X), su esperanza matemática viene dada por:  ￿∞  i=1 g(xi )P (xi ) Caso discreto E(g(X)) = ´  ∞ g(x)f (x)dx Caso continuo −∞ Propiedades: Sean a y b dos números reales cualesquiera y X e Y dos variables aleatorias, se verifica: 1. E(aX) = aE(X) 2. E(X + b) = E(X) + b 3. E(aX + b) = aE(X) + b 4. E(X + Y ) = E(X) + E(Y ) 11.6. Varianza. Propiedades
−∞

Definición. Llamamos varianza de una variable aleatoria X, que de2 notamos por V ar(X) o σX , al valor (si existe) de la expresión: (11.6.1) Como el cálculo de la esperanza depende del tipo de variable (discreta o continua), para la varianza se tendrá: ⇒ Caso discreto ∞ ￿ V ar(X) = (xi − E(X))2
i=1 2 V ar(X) = σX = E (X − E(X))2

⇒ Caso continuo

V ar(X) =

ˆ

Desarrollando el último miembro de la expresión 11.6.1, se tiene: ￿ ￿ ￿ ￿ (11.6.2) V ar(X) = E X 2 − 2XE(X) + E(X)2 = E X 2 − E(X)2

−∞

(x − E(X))2 f (x)dx

Esta expresión nos proporciona una fórmula útil para calcular la varianza.

11.7. ANEXO: MOMENTOS DE UNA DISTRIBUCIóN

79

Propiedades: Sean a y b dos números reales cualesquiera, se verifica: 1. V ar(X + b) = V ar(X) 2. V ar(aX) = a2 V ar(X) 3. V ar(aX + b) = a2 V ar(X) 11.7. ANEXO: Momentos de una distribución Dada una v.a. X se define el momento no centrado de orden r, que denotamos por αr , al valor (si existe) de la expresión: αr = E(X r ) Sus fórmulas de cálculo vienen dadas por: ⇒ Caso discreto: ∞ ￿ αr = xr P (xi ) i
i=1 ∞

⇒ Caso continuo:

αr =

ˆ

xr f (x)dx

Se define el momento centrado de orden r, que designamos por µr , como el valor (si existe) de la expresión: Su cálculo viene dado por: ⇒ Caso discreto: ∞ ￿ µr = (xi − E(X))r P (xi )
i=1

−∞

µr = E (X − E(X))r

⇒ Caso continuo:

µr =

ˆ

−∞

(x − E(X))r f (x)dx

Capítulo 12

Distribuciones notables
En Estadística Descriptiva, al conjunto de valores que toma una variable con sus correspondientes frecuencias se denomina distribución de frecuencias. Cuando trabajamos con variables aleatorias, el conjunto de valores que puede tomar esta variable con sus probabilidades correspondientes, se denomina distribución de probabilidad . En principio cada variable aleatoria lleva asociada su distribución de probabilidad; sin embargo, muchas de estas distribuciones presentarán entre si una gran similitud, pudiendo encuadrarlas dentro de determinados modelos probabilísticos. Estos modelos corresponden a idealizaciones matemáticas de experimentos empíricos. Cada modelo está formado por una familia de funciones de distribución que dependen de uno o más parámetros. El conocimiento de estos parámetros determinará la distribución de una variable concreta. En este tema, se estudian algunos de los modelos probabilísticos que más se emplean en la práctica.

Estos parámetros van asociados a las variables, y generalmente se corresponden con la esperanza y la varianza

12.1.

Distribución binomial

El modelo binomial corresponde a variables discretas, y su esquema es el siguiente: 1. Consideremos un experimento aleatorio del cual se realizan n pruebas. 2. En cada prueba, observamos si se verifica o no un determinado suceso A. La aparición de este suceso lo identificamos como éxito y a su complementario como fracaso. 3. La probabilidad de éxito p, (p = P (A)), se mantiene constante a lo largo de las n pruebas. 4. Cada prueba del experimento es independiente de las demás La variable aleatoria X que nos indica el número de éxitos que aparecen en n pruebas, se denomina binomial.
81

82

12. DISTRIBUCIONES NOTABLES

La variable X puede tomar los valores 0, 1, · · · , n; y su ley de probabilidad viene dada por: ￿ ￿ n k n−k (12.1.1) P (X = k) = p q k ¯ donde q representa la probabilidad de fracaso q = P (A), q = 1 − p Esta función de probabilidad viene determinada por dos parámetros: n y p; conocidos éstos, se puede calcular P (X = k), ∀k = 0, 1, · · · , n. La distribución binomial se representa por: B(n, p). Función de distribución:  0 si x < 0 ￿ [x] ￿n￿ k n−k F (x) = p q si 0 ≤ x < n  k=0 k 1 si x ≥ n

Más adelante se construye un test que nos permitirá contrastar la bondad de estos ajustes. La tabla recoge una selección de valores; y a pesar de las recomendaciones de interpolar o aproximar, en la actualidad, cualquier hoja de cálculo o programa informático de Estadística permiten obtener la probabilidad de forma exacta.

Características: E(X) = np ; V ar(X) = npq Ajuste: Para aproximar una distribución empírica por una binomial, se procede de la siguiente forma: calculamos la media aritmética de la distribución empírica y se identifica con la esperanza matemática de la variable teórica. A partir de aquí se obtiene el valor de p, pues n es conocido (tamaño poblacional). Una vez calculados los parámetros, queda especificada la distribución binomial que mejor se ajusta a la empírica. Utilización de tablas: Esta ley se encuentra tabulada en el cuadro 12.1, para un número de pruebas comprendido entre 1 y 8 y para ciertos valores de p entre 0,05 y 0,5. Para obtener la probabilidad de obtener k éxitos cuando n y p figuran en la tabla, se localiza el grupo de filas correspondiente a ese n, se fija la fila x en ese grupo y se obtiene la probabilidad en la columna con cabecera p. si p > 0, 5, entonces permutamos éxitos y fracasos y buscamos en la fila n − x el valor correspondiente a 1 − p. Si p o q no figuran en la tabla, sería necesario interpolar. Si n es mayor que 8, veremos en los siguientes apartados, que la distribución binomial puede aproximarse por otras distribuciones. Actualmente cualquier programa informático de Estadística nos permiten calcular las probabilidades de la mayoría de los modelos probabilísticos; por este motivo, el valor de las tablas ya no está tanto en facilitar la probabilidad como en darnos una visión de cómo evolucionan las probabilidades cuando alteramos el valor de los parámetros o de los valores.

12.2. DISTRIBUCIóN DE POISSON

83

12.2.

Distribución de Poisson

El modelo de Poisson también se denomina de los ’sucesos raros’, porque frecuentemente se aplica a variables aleatorias distribuidas en el tiempo (o en el espacio) que hacen referencia a sucesos cuya probabilidad de acaecimiento es muy pequeña. Las hipótesis que se suponen en este modelo son los siguientes: 1. Los sucesos que ocurren en un intervalo de tiempo son independientes de los que ocurren en cualquier otro intervalo de tiempo, e independientemente de como se elija el intervalo. 2. En un período determinado de tiempo, se conoce el número medio de veces que ocurre este suceso. 3. En un intervalo pequeño de tiempo, la probabilidad de que dos o más sucesos se presenten es ’casi despreciable’. En estos supuestos, la variable que nos indica el número de veces que aparece el suceso en un intervalo de tiempo, se dice que sigue una distribución de Poisson. Los valores que puede tomar esta variable son: 0, 1, · · · , x, · · · y su función de probabilidad es: (12.2.1) P (X = x) = e−λ λx x!

Esta distribución depende del parámetro λ y suele denotarse por: P(λ). Aproximación: La distribución binomial converge a la distribución de Poisson cuando n → ∞, p → 0 y np tiende a estabilizarse en torno a un valor λ. Se considera que la aproximación es buena cuando n ≥ 30, p < 0, 1 y np < 5. Función de distribución: F (x) = ￿ ￿[x] 0 si x < 0 −λ λk si x ≥ 0 k=0 e k!

Características: E(X) = λ, V ar(X) = λ. Ajuste: Dada una distribución empírica, la ley de Poisson que mejor se ajusta a ella, es aquélla cuyo parámetro coincide con la media de los datos observados. Como en el caso de la ley binomial, lo que se hace es identificar la media aritmética de la distribución observada con el valor esperado de la variable teórica. Utilización de tablas: El cuadro 12.2 recoge la ley de probabilidad de la distribución de Poisson para distintos valores de λ.

84

12. DISTRIBUCIONES NOTABLES

La columna correspondiente a un determinado x, nos indica la probabilidad con que la variable aleatoria toma ese valor para los distintos valores del parámetro. Como en el caso de la binomial y de los modelos que siguen, recomendamos el uso de la tabla para tener una visión de la evolución de las probabilidades, pero para calcular probabilidades recomendamos una hoja de cálculo o un calculador de probabilidad. 12.3. Distribución normal El adjetivo ’normal’ que califica a este modelo, al que también se denomina distribución de Gauss, hace referencia a la frecuencia con que esta ley se emplea en Estadística; y no solamente porque muchas variables continuas sigan esta distribución, sino porque también se puede utilizar para aproximar diversas distribuciones discretas, y más aún porque su relación con el teorema central del límite constituye la base de la inferencia estadística clásica. Se dice que una variable aleatoria X sigue una distribución normal de parámetros µ y σ, si su función de densidad viene dada por: 1 x−µ 2 1 (12.3.1) f (x) = √ e− 2 ( σ ) ; −∞ < x < ∞ 2πσ Nota 13. Como caso particular cuando µ = 0 y σ = 1, se obtiene la normal tipificada o reducida, que ya fue introducida en el capítulo 4.1. La familia de distribuciones normales, se denota por N (µ, σ). Función de distribución: ˆ x 1 x−µ 2 1 √ (12.3.2) F (x) = e− 2 ( σ ) dx 2πσ −∞ Características: E(X) = µ ; V ar(X) = σ 2 Como se puede observar, la esperanza y la varianza determinan los parámetros de esta distribución. Características gráficas: La curva normal es positiva y tiene forma de campana, es simétrica respecto a la recta x = µ, en el cual se 1 alcanza su valor máximo, siendo éste: f (µ) = √2πσ de donde se obtiene que su apuntamiento es inversamente proporcional a la desviación típica. Las colas son asintóticas al eje de abscisas no llegando a alcanzar el valor cero. Propiedades: 1. Si X sigue una distribución N (µ, σ), y a, b ∈ ￿, entonces Y = aX + b sigue una ley normal con parámetros: N (aµ + b, aσ). Como consecuencia de esta propiedad, se sigue:

12.3. DISTRIBUCIóN NORMAL

85

2. Si X tiene una distribución N (µ, σ), entonces x−µ sigue una σ distribución N (0, 1) Ajuste: La ley normal que mejor se ajusta a una distribución empírica es aquélla cuyos parámetros vienen dados por la media y la desviación típica de los datos observados. Aproximaciones: La distribución binomial de parámetros n y p, converge cuando n → ∞, a la distribución normal de parámetros µ = √ np y σ = npq. Se considera buena la aproximación cuando p < 0, 1 y np > 5 o bien cuando p > 0, 1 aunque np < 5. Utilización de tablas: en el cuadro 12.3, aparece tabulada la función de distribución de la ley normal reducida, para valores de x comprendidos entre 0 y 3,69. La probabilidad acumulada de un valor de x, con dos dígitos decimales, comprendidos entre los límites anteriores, se recoge en la tabla en la intersección de la fila correspondiente a ese número y el primer dígito decimal y la columna donde figura el segundo dígito. Si el número tiene más de dos decimales, será necesario interpolar (o recurrir a un calculador de probabilidad). Si x es un número menor que cero, entonces su probabilidad acumulada se calcula mediante la relación: La probabilidad de que X ≥ x, se obtiene como: Si x sigue una distribución N (µ, σ), entonces: ￿ ￿ X −µ x−µ P (X ≤ x) = P ≤ σ σ P (X ≥ x) = 1 − F (x) F (x) = 1 − F (−x)

La probabilidad de las colas de una normal estándar a partir de 3,69 es prácticamente despreciable.

y la variable X−µ ≈ N (0, 1), con lo cual podemos obtener esta σ probabilidad buscando en las tablas la correspondiente al número x−µ σ

86

12. DISTRIBUCIONES NOTABLES

Cuadro 1. Distribución binomial
n 1 2 k/p 0 1 0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 0, 05 0, 9500 0, 0500 0, 9025 0, 0950 0, 0025 0, 8574 0, 1354 0, 0071 0, 0001 0, 8145 0, 1715 0, 0135 0, 0005 0, 0000 0, 7738 0, 2036 0, 0214 0, 0011 0, 0000 0, 0000 0, 7351 0, 2321 0, 0305 0, 0021 0, 0001 0, 0000 0, 0000 0, 6983 0, 2573 0, 0406 0, 0036 0, 0002 0, 0000 0, 0000 0, 0000 0, 6634 0, 2793 0, 0515 0, 0054 0, 0004 0, 0000 0, 0000 0, 0000 0, 0000 0, 10 0, 9000 0, 1000 0, 8100 0, 1800 0, 0100 0, 7290 0, 2430 0, 0270 0, 0010 0, 6561 0, 2916 0, 0486 0, 0036 0, 0001 0, 5905 0, 3281 0, 0729 0, 0081 0, 0004 0, 0000 0, 5314 0, 3543 0, 0984 0, 0146 0, 0012 0, 0001 0, 0000 0, 4783 0, 3720 0, 1240 0, 0230 0, 0026 0, 0002 0, 0000 0, 0000 0, 4305 0, 3826 0, 1488 0, 0331 0, 0046 0, 0004 0, 0000 0, 0000 0, 0000 0, 15 0, 8500 0, 1500 0, 7225 0, 2550 0, 0225 0, 6141 0, 3251 0, 0574 0, 0034 0, 5220 0, 3685 0, 0975 0, 0115 0, 0005 0, 4437 0, 3915 0, 1382 0, 0244 0, 0022 0, 0001 0, 3771 0, 3993 0, 1762 0, 0415 0, 0055 0, 0004 0, 0000 0, 3206 0, 3960 0, 2097 0, 0617 0, 0109 0, 0012 0, 0001 0, 0000 0, 2725 0, 3847 0, 2376 0, 0839 0, 0185 0, 0026 0, 0002 0, 0000 0, 0000 0, 20 0, 8000 0, 2000 0, 6400 0, 3200 0, 0400 0, 5120 0, 3840 0, 0960 0, 0080 0, 4096 0, 4096 0, 1536 0, 0256 0, 0016 0, 3277 0, 4096 0, 2048 0, 0512 0, 0064 0, 0003 0, 2621 0, 3932 0, 2458 0, 0819 0, 0154 0, 0015 0, 0001 0, 2097 0, 3670 0, 2753 0, 1147 0, 0287 0, 0043 0, 0004 0, 0000 0, 1678 0, 3355 0, 2936 0, 1468 0, 0459 0, 0092 0, 0011 0, 0001 0, 0000 0, 25 0, 7500 0, 2500 0, 5625 0, 3750 0, 0625 0, 4219 0, 4219 0, 1406 0, 0156 0, 3164 0, 4219 0, 2109 0, 0469 0, 0039 0, 2373 0, 3955 0, 2637 0, 0879 0, 0146 0, 0010 0, 1780 0, 3560 0, 2966 0, 1318 0, 0330 0, 0044 0, 0002 0, 1335 0, 3115 0, 3115 0, 1730 0, 0577 0, 0115 0, 0013 0, 0001 0, 1001 0, 2670 0, 3115 0, 2076 0, 0865 0, 0231 0, 0038 0, 0004 0, 0000 0, 30 0, 7000 0, 3000 0, 4900 0, 4200 0, 0900 0, 3430 0, 4410 0, 1890 0, 0270 0, 2401 0, 4116 0, 2646 0, 0756 0, 0081 0, 1681 0, 3602 0, 3087 0, 1323 0, 0284 0, 0024 0, 1176 0, 3025 0, 3241 0, 1852 0, 0595 0, 0102 0, 0007 0, 0824 0, 2471 0, 3177 0, 2269 0, 0972 0, 0250 0, 0036 0, 0002 0, 0576 0, 1977 0, 2965 0, 2541 0, 1361 0, 0467 0, 0100 0, 0012 0, 0001 0, 35 0, 6500 0, 3500 0, 4225 0, 4550 0, 1225 0, 2746 0, 4436 0, 2389 0, 0429 0, 1785 0, 3845 0, 3105 0, 1115 0, 0150 0, 1160 0, 3124 0, 3364 0, 1811 0, 0488 0, 0053 0, 0754 0, 2437 0, 3280 0, 2355 0, 0951 0, 0205 0, 0018 0, 0490 0, 1848 0, 2985 0, 2679 0, 1442 0, 0466 0, 0084 0, 0006 0, 0319 0, 1373 0, 2587 0, 2786 0, 1875 0, 0808 0, 0217 0, 0033 0, 0002 0, 40 0, 6000 0, 4000 0, 3600 0, 4800 0, 1600 0, 2160 0, 4320 0, 2880 0, 0640 0, 1296 0, 3456 0, 3456 0, 1536 0, 0256 0, 0778 0, 2592 0, 3456 0, 2304 0, 0768 0, 0102 0, 0467 0, 1866 0, 3110 0, 2765 0, 1382 0, 0369 0, 0041 0, 0280 0, 1306 0, 2613 0, 2903 0, 1935 0, 0774 0, 0172 0, 0016 0, 0168 0, 0896 0, 2090 0, 2787 0, 2322 0, 1239 0, 0413 0, 0079 0, 0007 0, 45 0, 5500 0, 4500 0, 3025 0, 4950 0, 2025 0, 1664 0, 4084 0, 3341 0, 0911 0, 0915 0, 2995 0, 3675 0, 2005 0, 0410 0, 0503 0, 2059 0, 3369 0, 2757 0, 1128 0, 0185 0, 0277 0, 1359 0, 2780 0, 3032 0, 1861 0, 0609 0, 0083 0, 0152 0, 0872 0, 2140 0, 2918 0, 2388 0, 1172 0, 0320 0, 0037 0, 0084 0, 0548 0, 1569 0, 2568 0, 2627 0, 1719 0, 0703 0, 0164 0, 0017 0, 50 0, 5000 0, 5000 0, 2500 0, 5000 0, 2500 0, 1250 0, 3750 0, 3750 0, 1250 0, 0625 0, 2500 0, 3750 0, 2500 0, 0625 0, 0313 0, 1563 0, 3125 0, 3125 0, 1563 0, 0313 0, 0156 0, 0938 0, 2344 0, 3125 0, 2344 0, 0938 0, 0156 0, 0078 0, 0547 0, 1641 0, 2734 0, 2734 0, 1641 0, 0547 0, 0078 0, 0039 0, 0313 0, 1094 0, 2188 0, 2734 0, 2188 0, 1094 0, 0313 0, 0039

3

4

5

6

7

8

12.3. DISTRIBUCIóN NORMAL

87

Cuadro 2. Distribución de Poisson
λ/x 0, 1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 7 0, 8 0, 9 1 1, 1 1, 2 1, 3 1, 4 1, 5 1, 6 1, 7 1, 8 1, 9 2 2, 1 2, 2 2, 3 2, 4 2, 5 2, 6 2, 7 2, 8 2, 9 3 3, 1 3, 2 3, 3 3, 4 3, 6 3, 8 4 5 6 7 8 9 10 0 0, 9048 0, 8187 0, 7408 0, 6703 0, 6065 0, 5488 0, 4966 0, 4493 0, 4066 0, 3679 0, 3329 0, 3012 0, 2725 0, 2466 0, 2231 0, 2019 0, 1827 0, 1653 0, 1496 0, 1353 0, 1225 0, 1108 0, 1003 0, 0907 0, 0821 0, 0743 0, 0672 0, 0608 0, 0550 0, 0498 0, 0450 0, 0408 0, 0369 0, 0334 0, 0273 0, 0224 0, 0183 0, 0067 0, 0025 0, 0009 0, 0003 0, 0001 1 0, 0905 0, 1637 0, 2222 0, 2681 0, 3033 0, 3293 0, 3476 0, 3595 0, 3659 0, 3679 0, 3662 0, 3614 0, 3543 0, 3452 0, 3347 0, 3230 0, 3106 0, 2975 0, 2842 0, 2707 0, 2572 0, 2438 0, 2306 0, 2177 0, 2052 0, 1931 0, 1815 0, 1703 0, 1596 0, 1494 0, 1397 0, 1304 0, 1217 0, 1135 0, 0984 0, 0850 0, 0733 0, 0337 0, 0149 0, 0064 0, 0027 0, 0011 0, 0005 2 0, 0045 0, 0164 0, 0333 0, 0536 0, 0758 0, 0988 0, 1217 0, 1438 0, 1647 0, 1839 0, 2014 0, 2169 0, 2303 0, 2417 0, 2510 0, 2584 0, 2640 0, 2678 0, 2700 0, 2707 0, 2700 0, 2681 0, 2652 0, 2613 0, 2565 0, 2510 0, 2450 0, 2384 0, 2314 0, 2240 0, 2165 0, 2087 0, 2008 0, 1929 0, 1771 0, 1615 0, 1465 0, 0842 0, 0446 0, 0223 0, 0107 0, 0050 0, 0023 3 0, 0002 0, 0011 0, 0033 0, 0072 0, 0126 0, 0198 0, 0284 0, 0383 0, 0494 0, 0613 0, 0738 0, 0867 0, 0998 0, 1128 0, 1255 0, 1378 0, 1496 0, 1607 0, 1710 0, 1804 0, 1890 0, 1966 0, 2033 0, 2090 0, 2138 0, 2176 0, 2205 0, 2225 0, 2237 0, 2240 0, 2237 0, 2226 0, 2209 0, 2186 0, 2125 0, 2046 0, 1954 0, 1404 0, 0892 0, 0521 0, 0286 0, 0150 0, 0076 4 0, 0001 0, 0003 0, 0007 0, 0016 0, 0030 0, 0050 0, 0077 0, 0111 0, 0153 0, 0203 0, 0260 0, 0324 0, 0395 0, 0471 0, 0551 0, 0636 0, 0723 0, 0812 0, 0902 0, 0992 0, 1082 0, 1169 0, 1254 0, 1336 0, 1414 0, 1488 0, 1557 0, 1622 0, 1680 0, 1733 0, 1781 0, 1823 0, 1858 0, 1912 0, 1944 0, 1954 0, 1755 0, 1339 0, 0912 0, 0573 0, 0337 0, 0189 5 6 7 8 9

0, 0001 0, 0002 0, 0004 0, 0007 0, 0012 0, 0020 0, 0031 0, 0045 0, 0062 0, 0084 0, 0111 0, 0141 0, 0176 0, 0216 0, 0260 0, 0309 0, 0361 0, 0417 0, 0476 0, 0538 0, 0602 0, 0668 0, 0735 0, 0804 0, 0872 0, 0940 0, 1008 0, 1075 0, 1140 0, 1203 0, 1264 0, 1377 0, 1477 0, 1563 0, 1755 0, 1606 0, 1277 0, 0916 0, 0607 0, 0378

0, 0001 0, 0002 0, 0003 0, 0005 0, 0008 0, 0012 0, 0018 0, 0026 0, 0035 0, 0047 0, 0061 0, 0078 0, 0098 0, 0120 0, 0146 0, 0174 0, 0206 0, 0241 0, 0278 0, 0319 0, 0362 0, 0407 0, 0455 0, 0504 0, 0555 0, 0608 0, 0662 0, 0716 0, 0826 0, 0936 0, 1042 0, 1462 0, 1606 0, 1490 0, 1221 0, 0911 0, 0631

0, 0001 0, 0001 0, 0002 0, 0003 0, 0005 0, 0008 0, 0011 0, 0015 0, 0020 0, 0027 0, 0034 0, 0044 0, 0055 0, 0068 0, 0083 0, 0099 0, 0118 0, 0139 0, 0163 0, 0188 0, 0216 0, 0246 0, 0278 0, 0312 0, 0348 0, 0425 0, 0508 0, 0595 0, 1044 0, 1377 0, 1490 0, 1396 0, 1171 0, 0901

0, 0001 0, 0001 0, 0001 0, 0002 0, 0003 0, 0005 0, 0006 0, 0009 0, 0011 0, 0015 0, 0019 0, 0025 0, 0031 0, 0038 0, 0047 0, 0057 0, 0068 0, 0081 0, 0095 0, 0111 0, 0129 0, 0148 0, 0191 0, 0241 0, 0298 0, 0653 0, 1033 0, 1304 0, 1396 0, 1318 0, 1126

0, 0001 0, 0001 0, 0001 0, 0002 0, 0003 0, 0004 0, 0005 0, 0007 0, 0009 0, 0011 0, 0014 0, 0018 0, 0022 0, 0027 0, 0033 0, 0040 0, 0047 0, 0056 0, 0076 0, 0102 0, 0132 0, 0363 0, 0688 0, 1014 0, 1241 0, 1318 0, 1251

88

12. DISTRIBUCIONES NOTABLES

Cuadro 3. Distribución normal. N(0,1)
x 0 0, 1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 7 0, 8 0, 9 1 1, 1 1, 2 1, 3 1, 4 1, 5 1, 6 1, 7 1, 8 1, 9 2 2, 1 2, 2 2, 3 2, 4 2, 5 2, 6 2, 7 2, 8 2, 9 3 3, 1 3, 2 3, 3 3, 4 3, 5 3, 6 0 0, 5000 0, 5398 0, 5793 0, 6179 0, 6554 0, 6915 0, 7257 0, 7580 0, 7881 0, 8159 0, 8413 0, 8643 0, 8849 0, 9032 0, 9192 0, 9332 0, 9452 0, 9554 0, 9641 0, 9713 0, 9772 0, 9821 0, 9861 0, 9893 0, 9918 0, 9938 0, 9953 0, 9965 0, 9974 0, 9981 0, 9987 0, 9990 0, 9993 0, 9995 0, 9997 0, 9998 0, 9998 0, 01 0, 5040 0, 5438 0, 5832 0, 6217 0, 6591 0, 6950 0, 7291 0, 7611 0, 7910 0, 8186 0, 8438 0, 8665 0, 8869 0, 9049 0, 9207 0, 9345 0, 9463 0, 9564 0, 9649 0, 9719 0, 9778 0, 9826 0, 9864 0, 9896 0, 9920 0, 9940 0, 9955 0, 9966 0, 9975 0, 9982 0, 9987 0, 9991 0, 9993 0, 9995 0, 9997 0, 9998 0, 9998 0, 02 0, 5080 0, 5478 0, 5871 0, 6255 0, 6628 0, 6985 0, 7324 0, 7642 0, 7939 0, 8212 0, 8461 0, 8686 0, 8888 0, 9066 0, 9222 0, 9357 0, 9474 0, 9573 0, 9656 0, 9726 0, 9783 0, 9830 0, 9868 0, 9898 0, 9922 0, 9941 0, 9956 0, 9967 0, 9976 0, 9982 0, 9987 0, 9991 0, 9994 0, 9995 0, 9997 0, 9998 0, 9999 0, 03 0, 5120 0, 5517 0, 5910 0, 6293 0, 6664 0, 7019 0, 7357 0, 7673 0, 7967 0, 8238 0, 8485 0, 8708 0, 8907 0, 9082 0, 9236 0, 9370 0, 9484 0, 9582 0, 9664 0, 9732 0, 9788 0, 9834 0, 9871 0, 9901 0, 9925 0, 9943 0, 9957 0, 9968 0, 9977 0, 9983 0, 9988 0, 9991 0, 9994 0, 9996 0, 9997 0, 9998 0, 9999 0, 04 0, 5160 0, 5557 0, 5948 0, 6331 0, 6700 0, 7054 0, 7389 0, 7704 0, 7995 0, 8264 0, 8508 0, 8729 0, 8925 0, 9099 0, 9251 0, 9382 0, 9495 0, 9591 0, 9671 0, 9738 0, 9793 0, 9838 0, 9875 0, 9904 0, 9927 0, 9945 0, 9959 0, 9969 0, 9977 0, 9984 0, 9988 0, 9992 0, 9994 0, 9996 0, 9997 0, 9998 0, 9999 0, 05 0, 5199 0, 5596 0, 5987 0, 6368 0, 6736 0, 7088 0, 7422 0, 7734 0, 8023 0, 8289 0, 8531 0, 8749 0, 8944 0, 9115 0, 9265 0, 9394 0, 9505 0, 9599 0, 9678 0, 9744 0, 9798 0, 9842 0, 9878 0, 9906 0, 9929 0, 9946 0, 9960 0, 9970 0, 9978 0, 9984 0, 9989 0, 9992 0, 9994 0, 9996 0, 9997 0, 9998 0, 9999 0, 06 0, 5239 0, 5636 0, 6026 0, 6406 0, 6772 0, 7123 0, 7454 0, 7764 0, 8051 0, 8315 0, 8554 0, 8770 0, 8962 0, 9131 0, 9279 0, 9406 0, 9515 0, 9608 0, 9686 0, 9750 0, 9803 0, 9846 0, 9881 0, 9909 0, 9931 0, 9948 0, 9961 0, 9971 0, 9979 0, 9985 0, 9989 0, 9992 0, 9994 0, 9996 0, 9997 0, 9998 0, 9999 0, 07 0, 5279 0, 5675 0, 6064 0, 6443 0, 6808 0, 7157 0, 7486 0, 7794 0, 8078 0, 8340 0, 8577 0, 8790 0, 8980 0, 9147 0, 9292 0, 9418 0, 9525 0, 9616 0, 9693 0, 9756 0, 9808 0, 9850 0, 9884 0, 9911 0, 9932 0, 9949 0, 9962 0, 9972 0, 9979 0, 9985 0, 9989 0, 9992 0, 9995 0, 9996 0, 9997 0, 9998 0, 9999 0, 08 0, 5319 0, 5714 0, 6103 0, 6480 0, 6844 0, 7190 0, 7517 0, 7823 0, 8106 0, 8365 0, 8599 0, 8810 0, 8997 0, 9162 0, 9306 0, 9429 0, 9535 0, 9625 0, 9699 0, 9761 0, 9812 0, 9854 0, 9887 0, 9913 0, 9934 0, 9951 0, 9963 0, 9973 0, 9980 0, 9986 0, 9990 0, 9993 0, 9995 0, 9996 0, 9997 0, 9998 0, 9999 0, 09 0, 5359 0, 5753 0, 6141 0, 6517 0, 6879 0, 7224 0, 7549 0, 7852 0, 8133 0, 8389 0, 8621 0, 8830 0, 9015 0, 9177 0, 9319 0, 9441 0, 9545 0, 9633 0, 9706 0, 9767 0, 9817 0, 9857 0, 9890 0, 9916 0, 9936 0, 9952 0, 9964 0, 9974 0, 9981 0, 9986 0, 9990 0, 9993 0, 9995 0, 9997 0, 9998 0, 9998 0, 9999

Capítulo 13

Variables aleatorias bidimensionales
Hasta ahora hemos limitado nuestro estudio a variables aleatorias unidimensionales. En este tema vamos a generalizar los conceptos anteriores al caso de dos o más dimensiones. 13.1. Variables aleatorias bidimensionales. Conceptos generales

Consideremos dos variables aleatorias unidimensionales X e Y , llamamos variable aleatoria bidimensional , que denotamos por (X, Y ), a un vector aleatorio que a cada resultado w ∈ E del experimento asigna un único par de valores (X(w), Y (w)). En este caso, el espacio muestral de la variable (o conjunto valores posibles), será un subconjunto del plano (￿2 ). Diremos que una variable aleatoria bidimensional es discreta, si su espacio muestral es finito o infinito numerable; y diremos que la variable es continua, si el conjunto de valores posibles es no numerable. De la misma forma que ocurría con las variables unidimensionales, a la variable (X, Y ) le asignaremos una función de probabilidad si esta es discreta o una función de densidad si es continua, en ambos casos se le adjetiva de conjunta porque hace referencia a pares (x, y) (donde conjuntamente la variable X toma el valor x y la variable Y el valor y). Definición. Sea (X, Y ) una variable bidimensional discreta, llamamos función de cuantía o de probabilidad conjunta a una función P que a cada par (xi , yj ) le asocia un número P (X = xi , Y = yj ) = P (xi , yj ) = pij , satisfaciendo las siguientes condiciones: ￿￿ pij ≥ 0, ∀(xi , yj ), y pij = 1
i j

La función de cuantía es una probabilidad inducida por la de los sucesos asociados al experimentos aleatorio.

Para simplificar las notaciones, supongamos que si la variable bidimensional (X, Y ) es continua, lo son las variables unidimensionales X e Y , y supongamos además que X tome sus valores en un intervalo (a, b], (−∞ < a < b < ∞), e Y los toma en un intervalo (c, d],
89

podría ocurrir que una variable fuese discreta y otra continua

90

13. VARIABLES ALEATORIAS BIDIMENSIONALES

(−∞ < c < d < ∞); entonces la variable bidimensional (X, Y ) tomará valores en el rectángulo (a, b] × (c, d]. Definición. Llamamos función de densidad conjunta de la variable (X, Y ), a una función f , que cumple las siguientes condiciones: f : (x, y) ∈ (a, b] × (c, d] → f (x, y) ∈ ￿ f (x, y) ≥ 0, ∀(x, y) ∈ (a, b] × (c, d], ˆ bˆ
a d

f (x, y)dxdy = 1

c

Definición. Sea (X, Y ) una variable aleatoria bidimensional, definimos la función de distribución de la variable aleatoria bidimensional , que denotamos por F, a la función: F : (x, y) ∈ ￿2 → F (x, y) = P (X ≤ x, Y ≤ y) ∈ ￿ Cuando la variable es discreta, su función de distribución puede calcularse como: ￿￿ F (x, y) = P (xi , yj )
xi ≤x yj ≤y

Si la variable aleatoria bidimensional es continua, la función de distribución en un punto (x, y), se calcula como: ˆ x ˆ y F (x, y) = f (x, y)dxdy
−∞ −∞

13.2.

Distribuciones marginales y condicionadas

Los valores de la marginal de X o de una condicionada X/yj , son los mismos que los de X

Como ocurría con las variables estadísticas, dada una v.a. bidimensional podemos obtener la distribución unidimensional de una variable, bien sin importarnos para nada el comportamiento de la otra variable, o bien condicionándola a que la otra variable se concrete en (o entre) determinados valores. Según que siga uno y otro esquema, se tienen las distribuciones marginales o condicionadas respectivamente. En temas anteriores, ya hemos comentado que una variable aleatoria queda especificada cuando se conocen los valores que ésta puede tomar así como las probabilidades asociadas a los mismos. Los valores que pueden tomar las variables unidimensionales son conocidos por saber los que puede asumir la v.a. bidimensional; por tanto, para obtener las distribuciones marginales y condicionadas solo nos resta conocer sus funciones de probabilidad, para lo cual, en ambos casos, tenemos que distinguir si las variables son discretas o continuas.

13.2. DISTRIBUCIONES MARGINALES Y CONDICIONADAS

91

Distribuciones marginales. Cuando las variables son discretas, la función de probabilidad marginal de X, viene dada por: P (xi ) = P (X = xi , Y < ∞) =
∞ ￿ j=1

⇒ Variables discretas:

P (xi , yj )

De forma análoga, la función de distribución marginal de Y, la definimos como aquella que a cada yj , le asocia el valor: P (yj ) = P (X < ∞, Y = yj ) =
∞ ￿ i=1

P (xi , yj )

La función de distribución marginal de X se define como: FX (x) = l´ F (x, y) = l´ P (X ≤ x, Y ≤ y) = ım ım
y→∞ y→∞ ∞ ￿￿

P (xi , yj )

j=1 xi ≤x

Análogamente la función de distribución marginal de Y se obtiene como: ∞ ￿￿ FY (y) = P (xi , yj )
i=1 yj ≤y

Cuando la variable es continua, definimos las funciones de distribución marginal de X e Y respectivamente, como sigue: ˆ ∞ˆ x FX (x) = l´ F (x, y) = ım f (x, y)dxdy
y→∞

⇒ Variables continuas:

y: FY (y) = l´ F (x, y) = ım
x→∞

−∞ ∞

−∞ y

ˆ

−∞

ˆ

f (x, y)dxdy

−∞

Con lo cual las funciones de densidad marginal de X e Y , vienen dadas respectivamente, por: ˆ ∞ ˆ ∞ fX (x) = f (x, y)dy ; fY (y) = f (x, y)dx
−∞ −∞

92

13. VARIABLES ALEATORIAS BIDIMENSIONALES

Los sucesos o valores que condicionan tienen que tener probabilidad mayor que cero, porque de lo contrario no podrían ocurrir ni condicionar.

Definición. Llamamos función de probabilidad de X condicionada a Y = yj como aquella función que a cada xi le asigna el valor: P (xi /yj ) = P (xi , yj ) , P (yj ) > 0 P (yj )

Distribuciones condicionadas. ⇒ Variables discretas:

De forma semejante, definimos la función de probabilidad de Y condicionada a X = xi , como sigue: P (xi , yj ) P (yj /xi ) = , P (xi ) > 0 P (xi ) ⇒ Variables continuas: Sea (X, Y ) una variable aleatoria bidimensional continua con función de densidad conjunta f (x, y), y sean fX (x) y fY (y), las funciones de densidad marginales de X e Y respectivamente. Definición. Denominamos función de densidad de X condicionada a Y = y, a la función: f (x, y) f (x/y) = , fY (y) > 0 fY (y) De manera análoga, la función de densidad de Y condicionada a X = x, se define como: f (x, y) f (y/x) = , fX (x) > 0 fX (x) Nota 14. Siguiendo un esquema similar, podíamos definir las distribuciones condicionadas a que una variable tome valores en un determinado intervalo, en vez de un valor concreto. 13.3. Variables aleatorias independientes Intuitivamente, dos variables serán independientes, cuando los resultados de una no influyen para nada en los resultados de la otra. De un modo más formal, dada una variable bidimensional (X, Y ), diremos que la variable X es independiente de Y , cuando la distribución de probabilidad de X no depende de los valores que tome la variable Y ; o lo que es equivalente, cuando la distribución de X condicionada a cualquier valor de Y es siempre la misma y por tanto igual a su distribución marginal. Esto es: P (xi /yj ) = P (xi ) , ∀i, j

13.4. MOMENTOS BIDIMENSIONALES

93

si las variables son discretas, y: f (x, y) = fX (x) cuando las variables son continuas. De forma análoga, diremos que la variable Y es independiente de X, si se verifica: P (yj /xi ) = P (yj ) , ∀i, j en el caso discreto, y: f (x, y) = fY (y) en el caso continuo. Nota 15. La variable X es independiente con Y , si y solo si se verifica: ⇒ Si las variables son discretas: P (xi , yj ) = P (xi )P (yj ), ∀i, j ⇒ Si las variables son continuas: f (x, y)fX (x)fy (y), ∀(x, y) Nota 16. Estas relaciones se conocen como condiciones de independencia y son equivalentes a las definiciones anteriores. 13.4. Momentos bidimensionales

Dada la simetría de las condiciones de independencia, si X es independiente de Y , entonces Y lo es con X.

Cuando trabajamos con variables bidimensionales, al igual que ocurría en Estadística Descriptiva, los momentos irán acompañados de un doble subíndice, para distinguir el orden al que nos referimos en cada variable. Consideremos una v.a. bidimensional (X, Y ). Definición. Llamamos momento no centrado (o centrado respecto al origen) de orden (r, s) (r en la variable X y s en la variable Y ), que denotamos por αrs , al valor de la expresión: αrs = E (xr y s ) Definición. Denominamos momento centrad o (respecto a la esperanza) de orden (r, s), que designamos por µrs , al valor de la expresión: Los momentos no centrados de orden (1,0) y (0,1), nos indican la esperanza matemática de X e Y . Los momentos centrados de orden (2,0) y (0,2) representan la varianza de X e Y respectivamente. Un momento especialmente importante es el de orden (1,1) (centrado), que denominamos covarianza, y denotamos por Cov(X, Y ) o σXY , su expresión viene dada por: (13.4.1) Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))] µrs = E [(X − E(X))r (Y − E(Y ))s ]

94

13. VARIABLES ALEATORIAS BIDIMENSIONALES

que desarrollando el segundo miembro, también podemos expresar como: (13.4.2) Este momento nos indica la relación lineal entre dos variables. Nota 17. Otra medida importante para indicar el grado de dependencia lineal entre dos variables es el coeficiente de correlación lineal , que denotamos por rXY , y se define como: σXY (13.4.3) rXY = σX σY 13.5. Propiedades relacionadas con variables independientes Cov(X, Y ) = E(XY ) − E(X)E(Y )

La binomial es reproductiva en el parámetro n. La distribución de Poisson es reproductiva en su parámetro λ. La distribución normal es reproductiva en media y varianza.

Presentamos en este apartado algunas propiedades en relación con temas precedentes, que adquieren gran simplicidad cuando las variables son independientes. ⇒ El valor esperado del producto de dos variables aleatorias independientes es el producto de sus valores esperados: E(XY ) = E(X)E(Y ) ⇒ Si dos variables son independientes, su covarianza es cero (y por consiguiente su coeficiente de correlación lineal también es cero) ⇒ La varianza de la suma de dos variables independientes es la suma de las varianzas: V ar(X + Y ) = V ar(X) + V ar(Y ) ⇒ Un modelo es reproductivo cuando dos variables siguen ese modelo y son independientes, la suma de esas variables también siguen el modelo (donde alguno de sus parámetros recoge la operación suma) ⇒ Si X e Y son variables aleatorias independientes, que siguen una distribución binomial X ≈ B(n, p) y Y ≈ B(m, p), entonces: X + Y ≈ B(n + m, p). ⇒ Si X e Y son variables aleatorias independientes, que siguen una distribución de Poisson: X ≈ P(λX ), e Y ≈ P(λY ), entonces X + Y ≈ P(λX + λY ) ⇒ Si X e Y son variables aleatorias independientes, que siguen una distribución normal X ≈ N (µX , σX ) e Y ≈ N (µY , σY ), entonces: ￿ ￿ ￿ 2 2 X + Y ≈ N µX + µY , σ X + σ Y ⇒ Si X e Y siguen una distribución√ (0, 1) y son independientes N entonces la suma X + Y ≈ N (0, 2)

13.5. PROPIEDADES RELACIONADAS CON VARIABLES INDEPENDIENTES95

Nota 18. Todas las definiciones y propiedades anteriores pueden extenderse sin dificultad a variables aleatorias n-dimensionales.

Capítulo 14

Teoremas límites
En este tema, se presentan algunos teoremas límites que ponen de manifiesto el importante papel de la distribución normal dentro de la inferencia estadística. 14.1. Desigualdad de Chebyshev

Incluimos en este apartado la desigualdad de Chebyshev que tiene gran transcendencia en desarrollos posteriores, y aunque aparentemente no está relacionada con las propiedades límites, se utiliza en algunas de sus demostraciones. Consideremos una v.a. X con esperanza y varianza finitas, entonces para cualquier k ∈ ￿+ (es decir k > 0), se verifica: 1 (14.1.1) P (|X − E(X)| ≥ kσ) ≤ 2 k Esta relación es conocida como desigualdad de Chebyshev . Nota 19. Podrían darse expresiones más generales de esta desigualdad; sin embargo, hemos optado por ésta por ser la que presenta más posibilidades de interpretación y una mayor aplicación. Nota 20. La desigualdad de Chebyshev nos indica que la probabilidad de que una variable aleatoria X se aleje de su valor esperado más que k veces su desviación típica es menor que k12 . Nota 21. Podemos observar que no se ha hecho referencia a la distribución de la variable aleatoria X; si dispusiéramos de esa información adicional a este respecto, sería posible mejorar la desigualdad anterior. 14.2. Ley de los grandes números
Cuanto mayor sea el distanciamiento menor será la probabilidad de que ocurran valores.

La ley de los grandes números justifica la concepción frecuencialista de la probabilidad, pues muestra cómo la frecuencia relativa de un suceso se aproxima a su probabilidad, cuando el número de pruebas es grande. Ley de los grandes números: Supongamos que se realizan n pruebas independientes de un experimento aleatorio y se observa el
97

98

14. TEOREMAS LíMITES

número de veces que aparece un suceso A; denotemos por f (A) la frecuencia relativa de este suceso, y sea p la probabilidad del mismo, p = P (A) (se supone que es constante a lo largo de las n pruebas). En estas condiciones, se verifica que ∀￿ ∈ ￿+ , (￿ > 0): pq P (|f (A) − p| ≥ ￿) ≤ 2 n￿ siendo q la probabilidad del complementario, q = 1 − p Nota 22. Tomando límites en la desigualdad anterior, se obtiene:
n→∞

l´ P (|f (A) − p| ≥ ￿) = 0 , ∀￿ > 0 ım

En este sentido decimos que la frecuencias relativa ’converge’ a la probabilidad. Nota 23. Las condiciones del enunciado de esta desigualdad, nos recuerdan a la distribución binomial, pues se realizan n pruebas independientes, la probabilidad de éxito en cada prueba es la misma y se observa el número de éxitos; si denotamos por X la v.a. que nos indica este número, entonces X ≈ B(n, p) y f (A) = X . n 1 Tomando ￿ = n , la ley de los grandes número puede expresarse como: ￿ ￿￿ ￿ ￿X ￿ ￿ − p￿ ≥ 1 ≤ npq = V ar(X) P ￿ ￿ n n Que nos indica que ’la probabilidad de que el número medio de 1 éxitos, se aleje de la probabilidad de éxito más de n es menor que la varianza de la variable’. Nota 24. Pueden obtenerse otras formulaciones de esta ley. Si asociamos a cada prueba una variable aleatoria que nos indique el éxito o fracaso de la misma, al repetir n veces el experimento obtenemos una sucesión de v.a. X1 , · · · , Xn ; como cada prueba es independiente de las demás y corresponden todas al mismo experimento, las variables X1 , · · · , Xn son independientes y están idénticamente distribuidas. Supongamos E(Xi ) = µ, y V ar(Xi ) = σ 2 . El número de éxito en las n pruebas será: X = X1 + · · · + Xn Consideremos la media aritmética de estas variables, que a su vez es una v.a.: X1 + · · · + Xn ¯ X= n sus valores característicos son: σ2 ¯ ¯ E(X) = µ , y V ar(X) = n

14.3. TEOREMA CENTRAL DEL LíMITE

99

Aplicando la desigualdad de Chebyshev a esta variable ’media aritmética’. se tiene: ￿ ￿ ￿ ￿ σ 1 ¯ P ￿ X − µ￿ ≥ k √ ≤ 2 k n σ Eligiendo ￿ = k √n , resulta: ￿ ￿￿ ￿ σ2 ¯ P ￿ X − µ￿ ≥ ￿ ≤ 2 ￿n Tomando límites cuando n → ∞, se obtiene: ￿ ￿ ￿￿ ¯ l´ P ￿X − µ￿ ≥ ￿ = 0 ım
n→∞

Esta formulación de la ley de los grandes números nos indica que la media aritmética se aproxima a la esperanza matemática, cuando se realiza un gran número de pruebas. 14.3. Teorema central del límite Existen diversos enunciados de este teorema, siendo uno de los más simples el que a continuación se expone: Teorema central del límite (TCL).- Sean X1 , · · · , Xn , n variables aleatorias independientes e idénticamente distribuidas (v.a. iid.), con esperanza E(Xi ) = µ y varianza V ar(Xi ) = σ 2 . Consideremos la ￿n suma de éstas variables: Sn = i=1 Xi , (E(Sn ) = nµ y V ar(Sn ) = nσ 2 ), se tiene: ￿ √ ￿ Sn − nµ √ Sn → N nµ, σ n ⇔ → N (0, 1) n→∞ σ n n→∞

Nota 25. Puede generalizarse este teorema sustituyendo el supuesto de ’idéntica distribución’, que es una hipótesis fuerte, por otros supuestos más débiles que usualmente se satisfacen en la práctica; y de nuevo se tendría que la variable suma converge a una distribución normal, con esperanza la suma de las esperanzas y varianza la suma de las varianzas. Nota 26. Este teorema es sumamente útil, y puede interpretarse en los siguientes términos: ’Si tenemos un efecto motivado por múltiples causas, donde la influencia de cada una de ellas en la variación total es insignificante, (estas son las condiciones generales que se establecen en la nota anterior), entonces el efecto global sigue una distribución normal’.
TCL. El efecto de numerosas pequeñas causas sigue una distribución normal

Parte 3

Inferencia Estadística

Si fuera conocida, se podría realizar un análisis descriptivo sobre ella y por tanto no tendría sentido la inferencia (salvo que el coste de observación de aquella sea excesivo para los medios disponibles)

Introducción Como ya se observó en la parte de Estadística Descriptiva, la Inferencia Estadística consiste en inferir o inducir los resultados obtenidos para una muestra a conjuntos más numerosos. El esquema general que se sigue en la inferencia Estadística es el siguiente: Se parte de una población que se supone desconocida total o parcialmente. Hablamos de un desconocimiento parcial cuando la población es conocida a excepción de ciertas características o parámetros de los cuales depende y que una vez determinados, la población resulta totalmente conocida. Para disminuir el desconocimiento de la población se selecciona una muestra representativa de la misma. Conocer una muestra es conocer una parte de la población que nos proporciona cierta información sobre ésta. Para esta muestra podemos obtener los parámetros característicos que eran desconocidos en la población. El proceso de inducción consiste en suponer que el resto de la población se comporta como esta parte ya conocida y por lo tanto, se podrían extrapolar las conclusiones obtenidas a todo el colectivo. En todo proceso inductivo se juzga el todo por las partes; por lo que nunca podremos tener la seguridad absoluta de que el comportamiento de la población sea el proyectado a través de la muestra, salvo cuando la parte coincida con el todo. Por lo tanto, la inferencia lleva consigo determinados grados de seguridad o verosimilitud, y estos grados son cuantificados en términos de probabilidad. Hasta el momento, hemos estudiado dos campos muy diferenciados dentro de la Estadística, el citado de la Estadística Descriptiva y una introducción a la Teoría de la Probabilidad y los modelos probabilísticos. La Inferencia estadística lleva implícito una combinación de ambos procesos.

Capítulo 15

Teoría de muestras y distribuciones muestrales
Consideremos una población E, que podemos identificar con una v.a. X; conocidos los valores que ésta puede tomar y su función de distribución, la población queda determinada. Por lo general, esta población o variable resulta desconocida parcial o totalmente. Nuestro objetivo es llegar a la determinación, aunque sea probabilístico, de esa población o variable. Para ello, una solución sería observar todos los elementos de la población (todos los valores que va tomando la variable); sin embargo, tal solución, generalmente no es satisfactoria; problemas de tiempo, costo o simplemente por tratarse de poblaciones infinitas o procesos destructivos, nos impide llevarla a cabo. La otra alternativa que nos queda es seleccionar una parte de esa población, una muestra, analizarla por métodos descriptivos y extrapolar sus resultados. Con los resultados de esta muestra, podremos contrastar o estimar el modelo probabilístico de la población y/o los parámetros que la especifican. Cuando la muestra es aleatoria, los valores se eligen al azar, interviene la probabilidad y ello nos permite que las estimaciones anteriores no sean gratuitas, sino que las podemos acompañar de ciertos grados de confianza, expresados en términos probabilísticos. 15.1. Teoría de muestras

Es un abuso de lenguaje; pero a cada unidad de la población, X le asigna un valor, por tanto nos da lo mismo conocer las unidades que los valores.

La técnica por la que se selecciona una muestra, se denomina método de muestreo. Cuando el método de muestreo es aleatorio, la muestra que se puede obtener también lo es. La muestra será una variable aleatoria cuya dimensión coincidirá con el tamaño de la misma. Dedicamos este primer apartado a obtener la distribución de una muestra genérica de tamaño n. Para ello, supongamos en primer lugar, que tomamos una muestra aleatoria de tamaño uno de la variable X, esto es, elegimos al azar un elemento de la población. El elemento que se puede obtener de la población, en principio (antes de seleccionarlo), es uno cualquiera de
103

Antes de seleccionar una muestra concreta, el valor de X1 es aleatorio, y el de X2 , ...

104

15. TEORíA DE MUESTRAS Y DISTRIBUCIONES MUESTRALES

los valores que puede tomar la variable aleatoria, y por tanto toma los mismos valores que X y tiene su misma función de distribución. Denotemos por F ∗ la función de distribución de la muestra y por F la de X. Cuando la muestra es de tamaño uno, se tiene:
Reposición. Se selecciona un elemento, y se repone de nuevo a la población

Supongamos ahora, que vamos a tomar una muestra de tamaño dos, es decir, vamos a elegir dos elementos aleatorios de esa población. Si la población es infinita, o bien finita pero se sigue un método de muestreo aleatorio con reposición , las extracciones no guardan ninguna relación entre si, son independientes y por tanto podemos considerar cada extracción como una prueba del experimento independiente de las demás. En lo que sigue, siempre que no se indique lo contrario, entenderemos que se trata de poblaciones infinitas. Entonces seleccionar una muestra aleatoria de tamaño dos, será equivalente a observar una variable aleatoria bidimensional (X1 , X2 ) o dos variables unidimensionales X1 y X2 independientes entre si, por tanto la función de distribución de la muestra, F ∗ (x1 , x2 ), puede expresarse como: F ∗ (x1 , x2 ) = F (x1 )F (x2 ) Por otra parte, como cada una de las componentes tiene la misma distribución que la variable original X, se tiene: F ∗ (x1 , x2 ) = F (x)F (x) = (F (x))2 Consideremos ahora el caso general de una muestra de tamaño n; el conjunto de todos los valores posibles que pueden aparecer en esta muestra, corresponde al espacio muestra de una variable n-dimensional (X1 , · · · , Xn ) donde cada componente es independiente de las demás y están idénticamente distribuidas que la variable X (la muestra genérica de tamaño n, está definida en En y toma valores en ￿n ). entonces la función de distribución de la muestra puede expresarse como:

F ∗ (x) = F (x) ; ∀x ∈ ￿

El conocimiento de los primeros resultados condiciona el de los siguientes

F ∗ (x1 , · · · , xn ) = F (x1 ) · · · F (xn ) = (F (x))n Nota 27. A veces, esta última igualdad no aparece porque las variables no están idénticamente distribuidas que X. Si las especificaciones del método de selección nos condujesen a variables dependientes ; entonces la primera igualdad tampoco se verificaría, expresándose en tal caso la función de distribución de esta muestra como: F ∗ (x1 , · · · , xn ) = F (x1 )F ∗ (x2 /x1 ) · · · F (xn /x1 , · · · , xn−1 )

15.2. SELECCIóN DE MUESTRAS Y NúMEROS ALEATORIO

105

Nota 28. Se podrían desarrollar las relaciones anteriores considerando la función de probabilidad o de densidad (según que la variable X fuese discreta o continua) en vez de la función de distribución; las expresiones obtenidas serían del mismo tipo. La distribución de la muestra queda especificada por el conocimiento de X. 15.2. Selección de muestras y números aleatorio

Teóricamente, hemos resuelto el problema de obtener la distribución de una muestra aleatoria genérica. Nos ocupamos ahora de responder al interrogante: ¿Cómo seleccionar los elementos de la población para que la muestra sea realmente aleatoria? Como ya se ha señalado en la sección anterior, vamos a referirnos a poblaciones infinitas, o si ésta es finita, consideramos que se utiliza el método de muestreo aleatorio con reposición . Más adelante, se dedicará un tema especial al estudio de otros tipos de muestreo en poblaciones finitas. Quizás la primera respuesta que se nos ocurriría al interrogante anterior, sería la de realizar un sorteo o lotería; esto es, numerar o etiquetar con algún distintivo los elementos de la población, y realizar un sorteo entre éstos. Los elementos correspondientes a los números seleccionados en el sorteo, serán elegidos para formar parte de la muestra. Sin embargo, este método puede resultar pesado y poco efectivo cuando la población consta de muchos individuos o es infinita. Una técnica que se puede resultar útil en tales casos, consiste en emplear una tabla de números aleatorios. Estas tablas se elaboran por algún proceso informático que asigna a cada número del 0 al 9, las mismas probabilidades de selección; o desde el 00 al 99, cuando usamos cifras de dos dígitos, y así sucesivamente. Generalmente, se utilizan tablas de 4 o 6 dígitos, pudiendo realizar con ellos diferentes combinaciones (tomar un sólo dígito si el tamaño de la población no es mayor que diez, dos si no es mayor que cien, y así sucesivamente). A las tablas de números aleatorios se les practica una serie de contrastes con el fin de observar que no existe correlación entre sus componentes y así asegurar la aleatoriedad más pura de su cifras. Si dispusiéramos de una tabla de números aleatorios, la selección de la muestra podría realizarse como sigue: ’Se numeran todos los elementos de la población con arreglo a un determinado criterio; vamos a la tabla de cifras aleatorias y elegimos al azar una determinada fila y columna, que nos proporcionan la primera

Este método coincide con el de poblaciones infinitas

106

15. TEORíA DE MUESTRAS Y DISTRIBUCIONES MUESTRALES

Algunos programas informáticos facilitan directamente una muestra, sin que tengamos que preocuparnos por este tema Aunque en muchos casos son pseudo-aleatorios

cifra aleatoria; a partir de ahí continuamos seleccionando números consecutivos, bien por filas o por columnas, hasta que el número de cifras seleccionadas coincida con el tamaño de la muestra. En este momento, volvemos a la población y elegimos para formar parte de la muestra, las unidades cuya numeración coincida con las cifras seleccionadas’. La aleatoriedad de la muestra elegida, viene garantizada por la de la tabla de números aleatorios. Otro problema que se nos puede plantear es el siguiente: ¿Cómo podemos numerar los elementos de una población si ésta es infinita? Evidentemente cuando la población es infinita, no podemos emplear la técnica anterior, ni aún en el caso de que ésta sea numerable (¿cuántos dígitos utilizar?, su número dependerá del tamaño de la población). En estos casos, lo que suele hacerse es sustituir esta población por otra finita, construida artificialmente (Método de Monte Carlo), que tenga aproximadamente la misma composición que la población original y muestrear en esta segunda población. 15.3. Estadísticos y estimaciones

Un estadístico es una función de v.a. y por tanto, una nueva v.a. Una estimación es un número, un valor particular del estadístico.

Cuando una muestra aleatoria de tamaño n, se concreta en unos valores determinados (x1 , · · · , xn ), tenemos una distribución de frecuencias, y podemos emplear métodos descriptivos para obtener sus características x, Sx , · · · . ¯ Pero aún cuando la muestra no se ha concretado, podemos establecer las fórmulas matemáticas, que aplicadas a las magnitudes aleatorias de la muestra, nos proporcionan sus características muestrales genéricas; a estas expresiones matemáticas es a las que denominamos estadísticos. De un modo más preciso: sea (X1 , · · · , Xn ) una muestra aleatoria de tamaño n de una variable X. Llamamos estadístico a una función: T : (X1 , · · · , Xn ) ∈ En → T (X1 , · · · , Xn ) ∈ ￿ Para una muestra particular, (x1 , · · · , xn ), se obtiene un valor puntual de T , t = T (x1 , · · · , xn ), al que denominamos una estimación. Nota 29. Son estadísticos importantes: ⇒ La media aritmética de una muestra aleatoria X1 + · · · + Xn ¯ X= = T (X1 , · · · , Xn ) = T n

15.4. DISTRIBUCIONES UTILIZADAS EN PRUEBAS

107

Nota 30. Si la población depende de determinados parámetros desco¯ 2 nocidos (µ, σ 2 , · · · ) y se emplean los estadísticos (X, SX , · · · ) que nos permiten estimar los parámetros a partir de una muestra aleatoria, a tales estadísticos, generalmente, se les denomina estimadores. Nota 31. Si utilizamos la media y la varianza muestrales, para estimar la esperanza y la varianza poblacionales, podemos observar cómo existe un paralelismo entre sus ecuaciones; se ha trasladado la definición del parámetro a la muestra. A esta técnica de obtener estimadores, se la denomina método de analogía, y a los estadísticos construidos, estimadores analógicos. 15.4. Distribuciones utilizadas en pruebas

⇒ La varianza muestral ￿ n ￿ ¯ ￿ Xi − X 2 2 SX = =T n i=1

Nos proponemos en este apartado, estudiar algunos modelos probabilísticos, que si bien no aparecen en la realidad de una forma empírica, surgen asociados a ciertos estadísticos. ⇒ Distribución χ2 de Pearson Consideremos n variables aleatorias, independientes y con distribución N (0, 1). Y sea Y la suma de sus cuadrados: Entonces, la variable aleatoria Y , sigue un modelo muy conocido que se denomina χ2 de Pearson con n grados de libertad (que denotamos χ2 ). n Nota 32. De una forma intuitiva, los grados de libertad (g.l.), nos indican el número de valores que pueden ser elegidos arbitrariamente, para que se mantenga la identidad de una expresión particular. En la expresión anterior, fijados n valores de esas n + 1 variables, automáticamente quedaría determinado el valor desconocido. La variable aleatoria Y , toma valores no negativos, y su función de densidad viene dada por: e− y 2 f (y) = y ; ∀y > 0 n 2 2 Γ( n ) 2 ￿ ￿ √ donde Γ(n) = (n − 1)!, Γ 1 = π y n es el número de grados de 2 libertad.
n −1 2

2 2 Y = X1 + · · · + Xn

La distribución de χ2 queda den terminada por el conocimiento de los grados de libertad de la variable.

108

15. TEORíA DE MUESTRAS Y DISTRIBUCIONES MUESTRALES

Si consideramos una muestra aleatoria de tamaño n, (X1 , · · · , Xn ), ￿ extraída de una población N (0, 1), la variable Y = n Xi2 sigue una i=1 distribución χ2 con n grados de libertad. Los g.l. vienen indicados por n el tamaño de la muestra. Características: E(Y ) = n ; V ar(Y ) = 2n Nota 33. Si la variable Y sigue una ￿ distribución χ2 , y n es suficienn √ ￿ temente grande, entonces la variable 2Y , sigue aproximadamente ￿√ ￿ una distribución N 2n − 1, 1 . Utilización de tablas: El cuadro 15.4, recoge la distribución χ2 n de Pearson para algunos valores seleccionados y diferentes grados de libertad. La utilización de esta tabla es diferente a las expuestas para otros modelos. Por filas, vienen indicados los grados de libertad de la variable y por columnas, el valor de la función de distribución de los números que figuran en la tabla. El empleo usual de esta tabla, consiste en localizar el valor de la variable, que corresponde a cierto grado de libertad y a determinado nivel de confianza (una probabilidad). 15.5. Distribución t de Student

Consideremos dos variables aleatorias X e Y , independientes y tal que X se distribuye normalmente, X ≈ N (0, 1) e Y sigue una distribución χ2 con n g.l.. Entonces la variable aleatoria: (15.5.1) X T =￿
Y n

Se distribuye según un modelo conocido como t de Student con n grados de libertad. La función de densidad de esta variable aleatoria, es: ￿ ￿￿ ￿− n+1 2 1 Γ n+1 t2 2 ￿n￿ 1 + f (t) = √ ; −∞ < t < ∞ n nπ Γ 2 Características: E(T ) = 0 ; V ar(T ) = g(n) (La varianza es una función que depende del número de grados de libertad). Nota 34. Cuando el número de grados de libertad tiene a infinito, la distribución t ’converge’ (en el sentido del tema anterior) a la distribución normal reducida.

15.5. DISTRIBUCIóN t DE STUDENT

109

Cuadro 1. Distribución χn 2
g.l./p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0, 01 0, 0002 0, 0201 0, 1148 0, 2971 0, 5543 0, 8721 1, 2390 1, 6465 2, 0879 2, 5582 3, 0535 3, 5706 4, 1069 4, 6604 5, 2293 5, 8122 6, 4078 7, 0149 7, 6327 8, 2604 8, 8972 9, 5425 10, 1957 10, 8564 11, 5240 12, 1981 12, 8785 13, 5647 14, 2565 14, 9535 22, 1643 29, 7067 37, 4849 45, 4417 53, 5401 61, 7541 70, 0649 0, 025 0, 0010 0, 0506 0, 2158 0, 4844 0, 8312 1, 2373 1, 6899 2, 1797 2, 7004 3, 2470 3, 8157 4, 4038 5, 0088 5, 6287 6, 2621 6, 9077 7, 5642 8, 2307 8, 9065 9, 5908 10, 2829 10, 9823 11, 6886 12, 4012 13, 1197 13, 8439 14, 5734 15, 3079 16, 0471 16, 7908 24, 4330 32, 3574 40, 4817 48, 7576 57, 1532 65, 6466 74, 2219 0, 05 0, 0039 0, 1026 0, 3518 0, 7107 1, 1455 1, 6354 2, 1673 2, 7326 3, 3251 3, 9403 4, 5748 5, 2260 5, 8919 6, 5706 7, 2609 7, 9616 8, 6718 9, 3905 10, 1170 10, 8508 11, 5913 12, 3380 13, 0905 13, 8484 14, 6114 15, 3792 16, 1514 16, 9279 17, 7084 18, 4927 26, 5093 34, 7643 43, 1880 51, 7393 60, 3915 69, 1260 77, 9295 0, 1 0, 9 0, 95 0, 0158 2, 7055 3, 8415 0, 2107 4, 6052 5, 9915 0, 5844 6, 2514 7, 8147 1, 0636 7, 7794 9, 4877 1, 6103 9, 2364 11, 0705 2, 2041 10, 6446 12, 5916 2, 8331 12, 0170 14, 0671 3, 4895 13, 3616 15, 5073 4, 1682 14, 6837 16, 9190 4, 8652 15, 9872 18, 3070 5, 5778 17, 2750 19, 6751 6, 3038 18, 5493 21, 0261 7, 0415 19, 8119 22, 3620 7, 7895 21, 0641 23, 6848 8, 5468 22, 3071 24, 9958 9, 3122 23, 5418 26, 2962 10, 0852 24, 7690 27, 5871 10, 8649 25, 9894 28, 8693 11, 6509 27, 2036 30, 1435 12, 4426 28, 4120 31, 4104 13, 2396 29, 6151 32, 6706 14, 0415 30, 8133 33, 9244 14, 8480 32, 0069 35, 1725 15, 6587 33, 1962 36, 4150 16, 4734 34, 3816 37, 6525 17, 2919 35, 5632 38, 8851 18, 1139 36, 7412 40, 1133 18, 9392 37, 9159 41, 3371 19, 7677 39, 0875 42, 5570 20, 5992 40, 2560 43, 7730 29, 0505 51, 8051 55, 7585 37, 6886 63, 1671 67, 5048 46, 4589 74, 3970 79, 0819 55, 3289 85, 5270 90, 5312 64, 2778 96, 5782 101, 8795 73, 2911 107, 5650 113, 1453 82, 3581 118, 4980 124, 3421 0, 975 5, 0239 7, 3778 9, 3484 11, 1433 12, 8325 14, 4494 16, 0128 17, 5345 19, 0228 20, 4832 21, 9200 23, 3367 24, 7356 26, 1189 27, 4884 28, 8454 30, 1910 31, 5264 32, 8523 34, 1696 35, 4789 36, 7807 38, 0756 39, 3641 40, 6465 41, 9232 43, 1945 44, 4608 45, 7223 46, 9792 59, 3417 71, 4202 83, 2977 95, 0232 106, 6286 118, 1359 129, 5612 0, 99 6, 6349 9, 2103 11, 3449 13, 2767 15, 0863 16, 8119 18, 4753 20, 0902 21, 6660 23, 2093 24, 7250 26, 2170 27, 6882 29, 1412 30, 5779 31, 9999 33, 4087 34, 8053 36, 1909 37, 5662 38, 9322 40, 2894 41, 6384 42, 9798 44, 3141 45, 6417 46, 9629 48, 2782 49, 5879 50, 8922 63, 6907 76, 1539 88, 3794 100, 4252 112, 3288 124, 1163 135, 8067

Nota 35. El número de grados de libertad de la variable t coincide con el de la distribución de χ2 que interviene en su definición, y hemos visto en una nota precedente, que cuando se toma una muestra aleatoria de tamaño n de una distribución N (0, 1), el número de grados de libertad coincide con el tamaño de la muestra.

110

15. TEORíA DE MUESTRAS Y DISTRIBUCIONES MUESTRALES

Entonces, de la nota anterior, deducimos que cuando la muestra es grande, los estadísticos que siguen la distribución t, pueden aproximarse por una distribución N (0, 1); de ahí que las aplicaciones de la distribución t se reduzcan a muestras pequeñas, nombre con el cual también se conoce a esta ley. Utilización de tablas: El cuadro 15.5 recoge los valores de la variable t, a partir de los cuales, para ciertos grados de libertad, la probabilidad acumulada de su cola derecha coincide con determinados valores seleccionados en la primera fila. Aprovechando la simetría de esta función, podemos obtener las probabilidades acumuladas de la cola inferior o de ambas simultáneamente. Aunque indica probabilidades diferentes, que las de la tabla χ2 , su empleo es muy similar a ésta. 15.6. Algunas distribuciones asociadas al proceso de muestreo

Hemos observado anteriormente, que un estadístico es una variable aleatoria y por tanto nos interesa conocer su distribución. Nos proponemos en este apartado obtener la distribución de algunos estadísticos de interés (media, varianza y diferencia de medias), para muestras aleatorias obtenidas de una distribución muestral. Antes de obtener tales distribuciones, veamos cuáles son los valores característicos de la media y la varianza muestral, cuando tomamos una muestra del tamaño n, (X1 , · · · , Xn ) de una v.a. arbitraria X con esperanza y varianzas finitas µ y σ 2 respectivamente. ⇒ Media aritmética: Para la media aritmética muestral: X1 + · · · + Xn ¯ X= n 2 ¯ ¯ Sus valores característicos son:E(X) = µ ; V ar(X) = σ n En efecto: ￿ ￿ ¯ = E X1 + · · · + Xn = E(X1 ) + · · · + E(Xn ) E(X) n n y como todas las variables están idénticamente distribuidas que X, se obtiene: E(Xi ) = E(X), de donde: ￿ ￿ nE(X) ¯ E X = =µ n Para la varianza tenemos: ￿ ￿ ¯ = V ar X1 + · · · + Xn = V ar (X1 + · · · + Xn ) V ar(X) n n2

15.6. ALGUNAS DISTRIBUCIONES ASOCIADAS AL PROCESO DE MUESTREO 111

Cuadro 2. Distribución tn . Area en una o dos colas
U na cola 0, 001 Dos colas 0, 002 636, 6192 31, 5991 12, 9240 8, 6103 6, 8688 5, 9588 5, 4079 5, 0413 4, 7809 4, 5869 4, 4370 4, 3178 4, 2208 4, 1405 4, 0728 4, 0150 3, 9651 3, 9216 3, 8834 3, 8495 3, 8193 3, 7921 3, 7676 3, 7454 3, 7251 3, 7066 3, 6896 3, 6739 3, 6594 3, 6460 3, 5510 3, 4960 3, 4602 3, 4350 3, 4163 3, 4019 3, 3905

g.l./p g.l./p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100

0, 0025

0, 005

0, 01

0, 025

0, 05

0, 1 0, 2 6, 3138 2, 9200 2, 3534 2, 1318 2, 0150 1, 9432 1, 8946 1, 8595 1, 8331 1, 8125 1, 7959 1, 7823 1, 7709 1, 7613 1, 7531 1, 7459 1, 7396 1, 7341 1, 7291 1, 7247 1, 7207 1, 7171 1, 7139 1, 7109 1, 7081 1, 7056 1, 7033 1, 7011 1, 6991 1, 6973 1, 6839 1, 6759 1, 6706 1, 6669 1, 6641 1, 6620 1, 6602

0, 25 0, 5 2, 4142 1, 6036 1, 4226 1, 3444 1, 3009 1, 2733 1, 2543 1, 2403 1, 2297 1, 2213 1, 2145 1, 2089 1, 2041 1, 2001 1, 1967 1, 1937 1, 1910 1, 1887 1, 1866 1, 1848 1, 1831 1, 1815 1, 1802 1, 1789 1, 1777 1, 1766 1, 1756 1, 1747 1, 1739 1, 1731 1, 1673 1, 1639 1, 1616 1, 1600 1, 1588 1, 1578 1, 1571

0, 005 0, 01 0, 02 254, 6466 127, 3213 63, 6567 19, 9625 14, 0890 9, 9248 9, 4649 7, 4533 5, 8409 6, 7583 5, 5976 4, 6041 5, 6042 4, 7733 4, 0321 4, 9807 4, 3168 3, 7074 4, 5946 4, 0293 3, 4995 4, 3335 3, 8325 3, 3554 4, 1458 3, 6897 3, 2498 4, 0045 3, 5814 3, 1693 3, 8945 3, 4966 3, 1058 3, 8065 3, 4284 3, 0545 3, 7345 3, 3725 3, 0123 3, 6746 3, 3257 2, 9768 3, 6239 3, 2860 2, 9467 3, 5805 3, 2520 2, 9208 3, 5429 3, 2224 2, 8982 3, 5101 3, 1966 2, 8784 3, 4812 3, 1737 2, 8609 3, 4554 3, 1534 2, 8453 3, 4325 3, 1352 2, 8314 3, 4118 3, 1188 2, 8188 3, 3931 3, 1040 2, 8073 3, 3761 3, 0905 2, 7969 3, 3606 3, 0782 2, 7874 3, 3464 3, 0669 2, 7787 3, 3334 3, 0565 2, 7707 3, 3214 3, 0469 2, 7633 3, 3102 3, 0380 2, 7564 3, 2999 3, 0298 2, 7500 3, 2266 2, 9712 2, 7045 3, 1840 2, 9370 2, 6778 3, 1562 2, 9146 2, 6603 3, 1366 2, 8987 2, 6479 3, 1220 2, 8870 2, 6387 3, 1108 2, 8779 2, 6316 3, 1018 2, 8707 2, 6259

0, 05 0, 1 25, 4517 12, 7062 6, 2053 4, 3027 4, 1765 3, 1824 3, 4954 2, 7764 3, 1634 2, 5706 2, 9687 2, 4469 2, 8412 2, 3646 2, 7515 2, 3060 2, 6850 2, 2622 2, 6338 2, 2281 2, 5931 2, 2010 2, 5600 2, 1788 2, 5326 2, 1604 2, 5096 2, 1448 2, 4899 2, 1314 2, 4729 2, 1199 2, 4581 2, 1098 2, 4450 2, 1009 2, 4334 2, 0930 2, 4231 2, 0860 2, 4138 2, 0796 2, 4055 2, 0739 2, 3979 2, 0687 2, 3909 2, 0639 2, 3846 2, 0595 2, 3788 2, 0555 2, 3734 2, 0518 2, 3685 2, 0484 2, 3638 2, 0452 2, 3596 2, 0423 2, 3289 2, 0211 2, 3109 2, 0086 2, 2990 2, 0003 2, 2906 1, 9944 2, 2844 1, 9901 2, 2795 1, 9867 2, 2757 1, 9840

por ser las variables independientes, se tiene: V ar(X1 ) + · · · + V ar(Xn ) ¯ V ar(X) = n2

112

15. TEORíA DE MUESTRAS Y DISTRIBUCIONES MUESTRALES

Es inversamente proporcional a n, cuando el tamaño aumenta, la varianza del estimador disminuye

y por estar idénticamente distribuidas que X, resulta: nV ar(X) σ2 ¯ V ar(X) = = n2 n Nota 36. La varianza de la media muestral, disminuye con el tamaño de la muestra . Aquí aparece uno de los principales problemas en el diseño de una encuesta: ¿Qué número de entrevistas realizar para obtener una precisión determinada? o ¿Qué precisión tendrá una encuesta en la que se han realizado n entrevistas? (Una medida de la precisión viene dada por el inverso de la desviación típica). ⇒ Varianza muestral: Para la varianza muestral: S = Se tiene: E(S 2 ) =
(n−1)σ 2 , n 2

y ￿

n ￿
i=1

¯ Xi − X n ￿

2

µ4 − µ2 2 (µ4 − 2µ2 ) µ4 − 3µ2 2 2 2 − + 2 3 n n n Abordamos ahora el problema de encontrar la distribución de estos estadísticos. Para la media aritmética y la diferencia de medias, distinguiremos los casos en que la varianza poblacional es conocida o desconocida. ⇒ Distribución de la media muestral cuando se conoce la varianza:1 ¯ Podemos considerar X como la suma de n variables aleatorias X1 , · · · , Xn n n independientes e idénticamente distribuidas con: ￿ ￿ ￿ ￿ 2 Xi µ Xi σ E = , y V ar n n n n2 V ar(S 2 ) = entonces, aplicando el teorema central del límite, cuando n es grande, se tiene: ¯ ¯ X −µ X − µ√ = n → N (0, 1) σ √ n→∞ σ n o, equivalentemente: (15.6.1)
1Para

σ ¯ X → N (µ, √ ) n→∞ n

obtener la distribución de la media o de la diferencia de medias cuando se conoce la varianza, no es necesario suponer que la población sigue una ley normal.

15.6. ALGUNAS DISTRIBUCIONES ASOCIADAS AL PROCESO DE MUESTREO 113

⇒ Distribución de la diferencia de medias cuando se conoce la varianza: Supongamos ahora que tenemos dos muestras aleatorias independientes de tamaños n y m, (X1 , · · · , Xn ) e (Y1 , · · · , Ym ) de dos poblaciones X e Y distribuidas normalmente con parámetros (µX , σX ) y (µY , σY ) respectivamente. Y supongamos además que las varianzas son conocidas. En esta situación, teniendo en cuenta la distribución de la media, sabemos que: ￿ ￿ ￿ ￿ σX σY ¯ ¯ X ≈ N µX , √ ; Y ≈ N µY , √ n m Nos planteamos ahora la distribución de la diferencia de las medias: ¯ −Y. X ¯ Aplicando la propiedad de la suma de variables aleatorias normales e independientes, se tiene que: ￿ ￿ ￿ 2 2 σX σY ¯ ¯ (15.6.2) X − Y ≈ N µX − µY , + n m

La media de la diferencia es la diferencia de las medias; pero la varianza de la diferencia, cuando son independientes es al suma de las varianzas.

Nota 37. Como caso particular, cuando las dos muestras proceden de la misma población, µX = µY , y σX = σY , entonces la distribución de la diferencia de medias sería: ￿ ￿ ￿ 1 1 ¯ ¯ X − Y ≈ N 0, + σ n m ⇒ Distribución de la varianza muestral: Supongamos que nos encontramos en las hipótesis de partida, y que queremos obtener la distribución de la varianza muestral. Supongamos que: ￿ ￿ σ ¯ ≈ N µ, √ Xi ≈ N (µ, σ) y X n ¯ entonces la distribución de la diferencia Xi − X, será: ￿ ￿ ￿￿ ￿ ￿ 1 (n + 1)σ 2 2 ¯ Xi − X ≈ N 0, σ 1 + = N 0, n n o, de forma equivalente: ￿ ¯ ￿￿ n Xi − X ≈ N (0, 1) σ n+1

114

15. TEORíA DE MUESTRAS Y DISTRIBUCIONES MUESTRALES

Con lo cual, si elevamos estas variables al cuadrado, la variable suma presenta la forma de la χ2 de Pearson. Sin embargo, estas variables no son independientes (recuérdese que la suma de las desviaciones respecto a su media es cero), pero sí podríamos expresar ￿ n ￿ ¯ ￿ Xi − X 2 nS 2 (15.6.3) = 2 ≈ χ2 n−1 σ2 σ i=1 como la suma del cuadrado de n-1 variables aleatorias independientes con distribución N (0, 1); por lo que la variable anterior, seguirá una distribución χ2 de Pearson con n − 1 grados de libertad. ⇒ Distribución de la media cuando no se conoce la varianza: Consideremos una muestra aleatoria de tamaño n, (X1 , · · · , Xn ) obtenida de una población normal con parámetros N (µ, σ), donde suponemos que no se conoce la varianza. Si X ≈ N (µ, σ), entonces: ¯ X − µ√ n ≈ N (0, 1) σ Por otra parte, en el apartado anterior, hemos visto que: nS 2 ≈ χ2 n σ2 por tanto: ¯ X−µ √ ¯ n X − µ√ σ = n − 1 = tn−1 2￿ n S S 2 σ n−1

se distribuye cono una t de Student con n − 1 grados de libertad. ⇒ Distribución de la diferencia de medias cuando no se conoce la varianza: Supongamos ahora que se toman dos muestras aleatorias (X1 , · · · , Xn ) e (Y1 , · · · , Ym ) de tamaños n y m respectivamente, de una población N (µ, σ), donde consideramos que la varianza es desconocida. Se trata de hallar la distribución de la diferencia entre las medias muestrales. Siguiendo un razonamiento similar al del apartado anterior, obtendríamos que: ¯ ¯ ￿ mn X −Y ￿ 2 ≈ tn+m−2 2 nSX +mSY n+m
n+m−2

sigue una distribución t de Student con n + m − 2 grados de libertad.

Capítulo 16

Estimación
El proceso de estimación tiene como finalidad la obtención del modelo explícito de probabilidad que sigue una población o variable aleatoria X, a partir de una muestra de tamaño n, sobre el cual existe un desconocimiento parcial o total. Si el desconocimiento es parcial, los métodos de estimación tratan de obtener los parámetros desconocidos, por lo que a tales métodos se les denomina paramétricos. Por el contrario, si existe un desconocimiento total de la población, los métodos de estimación se llaman no paramétricos. Vamos a limitarnos sólo a los problemas de estimación paramétrica, y dentro de éstos al caso más sencillo en que la distribución de X depende de un solo parámetro (aunque su generalización a una dependencia de dos o más parámetros, no reviste dificultad). Las estimaciones que se realizan no son más que inferencias obtenidas a partir de la muestra mediante el empleo de un estimador adecuado. Esto nos lleva a la necesidad de plantearnos: ¿Cómo obtener estimadores?, y cuando exista más de un estimador ¿Cómo discernir cual es el más apropiado?. A estos interrogantes contestan las dos primeras secciones de este tema. Por otra parte, las estimaciones que se pueden hacer son de dos tipos: estimación puntual y estimación por intervalos. Nos referimos a estimaciones puntuales cuando tratamos de obtener una aproximación al valor correcto del parámetro desconocido; estas estimaciones variarán con la muestra elegida, por lo cual a veces puede resultar más interesante hallar unos límites de confianza entre los cuales ’debe’ oscilar el valor del parámetro, que obtener un determinado valor del mismo. Este segundo tipo de problemas se conoce como estimación por intervalos. Estos aspectos serán tratados en la última sección del tema.

Conocemos su modelo probabilístico, a excepción de uno o más parámetros que lo especifican

16.1.

Estimadores. Propiedades

Estudiamos en este apartado una serie de propiedades que, en principio, parecía razonable exigir a los ’buenos’ estimadores. Aún en aquellos casos en que tales propiedades no se satisfagan en su totalidad, éstas
115

116

16. ESTIMACIóN

pueden servirnos como un criterio que nos permita catalogar la bondad de los estimadores. Consideremos una v.a. X, cuya función de distribución depende de un parámetro θ, y que denotamos por Fθ (x) o F (x, θ). Para estimar este parámetro desconocido, supongamos que se toma una muestra aleatoria de tamaño n, (X1 , · · · , Xn ) de esta población, a partir de la ˆ ˆ cual, empleando un estimador θ = θ(X1 , · · · , Xn ), cuando la muestra se ˆ concreta en unos valores determinados, θ(x1 , · · · , xn ) nos proporciona ˆ una estimación θ∗ del parámetro θ. ⇒ Insesgamiento. Intuitivamente, podemos entender la desviación entre la estimación y el verdadero valor del parámetro, como un error que depende del estimador elegido: ˆ ￿ = θ∗ − θ Nos interesaría que la estimación estuviese lo más próxima posible al valor correcto del parámetro. Sin embargo, tal puntualización resulta imposible de comprobar, pues el parámetro es desconocido y la estimación depende de la muestra seleccionada. No obstante, si podemos disponer de algún tipo de información, podemos conocer la distribución del estimador, y por tanto la estimación ˆ promediada o valor esperado del estimador: E(θ). De este modo, el error esperado del estimador, será: ˆ B = E(θ) − θ

El error esperado es un error sistemático en la misma dirección, se denomina sesgo. Diremos que un estimador es centrado o insesgado si B = 0, y en otro caso, diremos que se trata de un estimador sesgado. Parece lógico que, si disponemos de varios estimadores para aproximar el valor de un parámetro desconocido, sea preferible aquél que cometa un sesgo menor, o lo que es lo mismo, aquél que a priori sabemos que nos conduce a un error promediado menor. Nota 38. La media muestral es un estimador insesgado, puesto que E(X) = µ. En cambio la varianza muestral, es un estimador insesgado: (n − 1)σ 2 E(S 2 ) = n Sin embargo, conocida la esperanza del estimador, resulta fácil la obtención de un estimador insesgado: ￿ ￿n ￿ ¯ 2 nS 2 i=1 Xi − X = n−1 n−1

16.1. ESTIMADORES. PROPIEDADES

117

el cual se denomina cuasi-varianza muestral. Esta técnica de obtención de estimadores insesgados suele ser útil en muchos casos. ⇒ Mínima varianza. La regla del insesgamiento -elegir aquel estimador que nos conduzca a un sesgo menor-, aunque muy importante, no es suficiente para determinar un buen estimador; pues puede ocurrir que un estimador sea centrado pero que a la vez, con un gran riesgo, se obtengan estimaciones concretas alejadas del valor esperado. Entonces, quizás fuese preferible un estimador que tuviese una probabilidad pequeña de tomar valores alejados del esperado aunque cometiese un pequeño sesgo. En otras palabras, parece razonable exigirle al estimador que su distribución se concentre lo más posible en torno a su valor esperado. Las consideraciones anteriores son equivalentes al criterio de varianza mínima: ˆ Definición. Un estimador θ se denomina de mínima varianza, si de todos los estimadores de θ es el que tiene una varianza menor. ⇒ Eficiencia. Parece razonable que si un estimador es insesgado y tiene varianza mínima, será el más idóneo para estimar θ. Pero también podría ocurrir que se nos presentase el siguiente dilema: ’disponemos de dos estimadores, uno centrado y otro sesgado; si bien el sesgado tiene una varianza menor. ¿Cuál de los dos estimadores elegir?’. Para resolver este dilema, una de las formas de proceder, sería comparar la dispersión de sus estimaciones, no respecto a su valor esperado, sino respecto al verdadero valor del parámetro. Así podemos establecer la siguiente definición: ˆ Definición. Llamamos error cuadrático medio de un estimador θ para ￿ ￿2 ˆ estimar θ, al valor: E θ − θ . Entonces podemos adoptar la siguiente regla de preferencia basada en la eficiencia de estimador: ˆ ˆ ˆ Definición. Dados dos estimadores θ1 y θ2 , de θ, diremos que θ1 es ˆ más eficiente que θ2 , si se verifica: ￿ ￿2 ˆ E θ1 − θ ￿ ￿2 < 1 ˆ2 − θ E θ

118

16. ESTIMACIóN

ˆ Definición. Decimos que un estimador θ es eficiente para un estimador θ, si es más eficiente que cualquier otro estimador para ese parámetro. Nota 39. Para un estimador insesgado, el error cuadrático medio coincide con la varianza, por tanto esta regla de elección se reduce a la de mínima varianza cuando los estimadores son centrados. ⇒ Consistencia. También parece lógico exigir a un ’buen’ estimador que cuando la muestra tiende a la población, las estimaciones converjan al parámetro. ˆ Definición. Se dice que un estimador θ es consistente, si se cumple: ￿ ￿￿ ￿ ￿ˆ ￿ l´ P ￿θ − θ￿ > ￿ = 0 , ∀￿ > 0 ım
n→∞

Nota 40. Esta propiedad es muy intuitiva; nos dice que cuando la muestra es grande, se dispone de más información y por lo tanto, deberíamos de tener una seguridad mayor en obtener estimaciones próximas al verdadero valor.

Otra propiedad exigible es la de suficiencia, que aproveche toda la información de la muestra

ˆ ˆ Puede ocurrir que un estimador θ1 sea más eficiente que otro θ2 , pero que este segundo sea consistente y el primero no. Entonces si tenemos la posibilidad de tomar una muestra mayor, a partir de un determinado tamaño, el segundo será preferible al primero. Parece natural exigir a un estimador para que sea catalogable de ’bueno’ que sea insesgado, eficiente y consistente . Sin embargo, en muchos casos no podremos encontrar estimadores satisfaciendo todas estas propiedades, por lo que este listado de propiedades deseables puede ser utilizado como un criterio para clasificar la ’bondad’ de los estimadores. 16.2. Métodos para la obtención de estimadores

Existen diversas técnicas para obtener estimadores. Vamos a centrarnos en dos de las más importantes: método de máxima verosimilitud y método de los momentos. Método de la máxima verosimilitud. Es la técnica de estimación más empleada, por las buenas propiedades a que conducen sus estimaciones. Intuitivamente, este método consiste en elegir como estimación del parámetro, aquélla que tiene una mayor probabilidad de haber sido la generadora de la muestra en la que nos basamos para realizar la elección. Formalmente, consideremos una variable aleatoria X, cuya distribución depende de un parámetro θ; denotemos por f (x, θ) su función

16.2. MéTODOS PARA LA OBTENCIóN DE ESTIMADORES

119

de densidad si la variable es continua o por P (x, θ) su función de probabilidad, si es discreta. Consideremos una muestra aleatoria de tamaño n, (X1 , · · · , Xn ) de esta población, su función de probabilidad o densidad, según el caso, que denotamos por L(X1 , · · · , Xn , θ), vendrá dada por: ⇒ Caso discreto: L(x1 , · · · , xn , θ) = P (x1 , θ) · · · P (xn , θ) ⇒ Caso continuo: L(x1 , · · · , xn , θ) = f (x1 , θ) · · · f (xn , θ) siendo (x1 , · · · , xn ) los valores particulares en los que se ha concretado la muestra aleatoria. Esta función de probabilidad o de densidad, en ambos casos, es conocida como función de verosimilitud . El criterio de máxima verosimilitud consiste en elegir la estimación del parámetro que maximice la función de verosimilitud; es decir, se ˆ tomará aquella estimación θ∗ , tal que: ˆ ˆ L(x1 , · · · , xn , θ∗ ) = m´x L(x1 , · · · , xn , θ) a
ˆ θ

Elegimos el valor del parámetro para el que es mayor la probabilidad de que la muestra proceda de esa población

El óptimo de esta función se obtiene igualando su derivada primera (respecto al parámetro) a cero, a partir de la cual puede obtenerse el valor de la estimación. Si la distribución de X dependiese de varios parámetros, el óptimo vendría dado por la igualación a cero de las derivadas parciales de L respecto a esos parámetros. El óptimo es un máximo por la propia forma de la función de verosimilitud. Nota 41. Cuando la variable es continua, L generalmente adopta una forma exponencial, con lo cual tomando logaritmos en esta función se simplifican considerablemente los cálculos. Como el óptimo de L coincide con el de log L, usualmente suele optimizarse esta segunda función en vez de la primera. Propiedades: 1. Bajo condiciones muy generales, los estimadores máximo verosímiles son consistentes. ˆ 2. El estimador máximo verosímil es invariante (si θ es un estimaˆ dor máximo verosímil de θ, entonces g(θ), lo es de g(θ)). 3. Para un tamaño muestral suficientemente grande, la distribución del estimador máximo verosímil se aproxima a una normal 1 de parámetros θ y 2. ∂ nE ( ∂θ ln f (x,θ)) Esta propiedad nos indica, no solamente que el estimador es consistente, sino que también nos muestra la ley probabilística por la que el estimador converge al parámetro

120

16. ESTIMACIóN

Si la muestra converge a la población, los momentos también convergerán

Método de los momentos. Este método se basa en igualar momentos muestrales a momentos poblacionales. La distribución de X depende de ciertos parámetros, los momentos teóricos de esta variable también dependerán de esas características. Por otra parte, los momentos muestrales quedan determinados por el conocimiento de la muestra; y como la muestra trata de especificar el modelo probabilístico de la población, parece razonable que tales características coincidan. De este modo, igualando tantos momentos como parámetros desconocidos existan, se tendrá un sistema con el mismo número de ecuaciones que de incógnitas, de cuya resolución se obtendrá el valor de los parámetros que determinan la población. Este método es más sencillo de aplicar que el de la máxima verosimilitud, y los estimadores obtenidos son consistentes. Sin embargo, suele utilizarse más el método de la máxima verosimilitud porque, generalmente, suele conducir a estimadores más eficientes. 16.3. Estimación por intervalos

Como ya se señaló en la introducción a este tema, se realiza una estimación puntual cuando se obtiene un único valor como estimación del parámetro poblacional. En las secciones precedentes se ha visto cómo construir estimadores y qué propiedades deberían satisfacer para que éstos fueran catalogados de ’buenos’. Sin embargo, la teoría anterior no nos da una respuesta a la pregunta: ¿Qué seguridad tenemos de que una estimación concreta sea buena?. Porque, del hecho de que el estimador sea bueno, se obtiene que en promedio las estimaciones también lo son, pero esta teoría no se responsabiliza de lo que pueda ocurrir con una estimación particular. Pretendemos en este apartado obtener solución a este problema, mediante el empleo de los ’intervalos de confianza’. Entendemos por intervalo de confianza un intervalo que, con cierta probabilidad, se encuentra el parámetro desconocido. De un modo más preciso: Definición. Sea X una variable aleatoria cuya distribución depende de un parámetro θ. Un intervalo de confianza de θ es un intervalo de ˆ ˆ la forma [θ1 , θ2 ], tal que: ￿ ￿ ˆ1 ≤ θ ≤ θ2 = 1 − α ˆ P θ donde el número 1 − α, se conoce como coeficiente o nivel de confianza (con el que se construye el intervalo).

16.3. ESTIMACIóN POR INTERVALOS

121

ˆ ˆ A θ1 y θ2 se les denomina límites de confianza, inferior y superior, respectivamente. ˆ ˆ Lógicamente, los límites de confianza θ1 y θ2 , así como la probabilidad de que el parámetro se encuentre entre ellos, son magnitudes desconocidas; y nuestra única fuente de información posible será la derivada de una muestra aleatoria de tamaño n, (X1 , · · · , Xn ), obtenida a partir de esa población. Así pues, se tratará de buscar la forma de expresar tales cantidades en función de los valores muestrales obtenidos. Supongamos que se puede definir un estimador de θ: ˆ ˆ θ = θ (X1 , · · · , Xn ) que es una función continua y monótona de θ y cuya distribución no dependa de parámetros. Entonces, si conocemos la distribución del estimador, podemos encontrar dos cantidades γ1 y γ2 tales que, para un nivel de confianza 1 − α, se tenga: ￿ ￿ ˆ P γ1 ≤ θ(X1 , · · · , Xn ) ≤ γ2 = 1 − α

Resolviendo las ecuaciones: ˆ ˆ γ1 = θ(X1 , · · · , Xn ) , γ2 = θ(X1 , · · · , Xn ) ˆ ˆ obtenemos unas soluciones genéricas θ1 (X1 , · · · , Xn ) y θ2 (X1 , · · · , Xn ), tales que, si: ˆ ˆ ˆ γ 1 ≤ θ ≤ γ 2 ⇒ θ1 ≤ θ ≤ θ2 y: ￿ ￿ ˆ ˆ P θ1 ≤ θ ≤ θ2 = 1 − α

ˆ ˆ Evidentemente θ1 y θ2 son dos variables aleatorias que pueden tomar muchos valores diferentes. Sin embargo, nos interesará que los límites de confianza estén lo más próximos posibles. Si la distribución del estimador es campaniforme, la amplitud del intervalo de confianza será ˆ ˆ menor cuando θ1 y θ2 sean equidistantes del centro de la distribución. ˆ ˆ Luego, los límites de confianza óptimos serán de la forma: θ−￿ , θ+￿. Por otra parte, ￿ siempre se puede expresar como k veces la desviación típica del estimador. Así pues, cuando conozcamos la distribución que sigue el estimador, para determinar el intervalo de confianza a un nivel 1 − α, (nivel que se fija de antemano), será suficiente buscar en las tablas correspondientes el valor de k, tal que: ￿ ￿ ￿ ￿ ￿ ￿ ˆ ˆ ˆ ˆ P θ − kσ ≤ θ ≤ θ + kσ = F θ + kσ − F θ − kσ = 1 − α

122

16. ESTIMACIóN

Nota 42. Si la distribución del estimador no fuera conocida, pero si conociéramos su esperanza y su varianza, entonces la desigualdad de Chebyshev nos proporciona una acotación al valor del parámetro. ￿￿ ￿ ￿￿ ￿ ￿ˆ ˆ ￿ La desigualdad de Chebyshev nos dice que: P ￿θ − E θ ￿ ≥ k12 , o equivalentemente: ￿￿ ￿ ￿￿ ￿ 1 ￿ˆ ˆ ￿ P ￿θ − E θ ￿ kσ ≥ 1 − 2 k de donde: ￿ ￿ ￿ ￿ 1 ˆ ˆ ˆ P θ − kσ ≤ E θ ≤ θ + kσ ≥ 1 − 2 k ￿ ￿ ˆ entonces, coincide la esperanza del estimador, se tiene: θ = E θ − B, (siendo B el sesgo del estimador), y por tanto: ￿ ￿ 1 ˆ ˆ P θ − kσ − B ≤ θ ≤ θ + kσ − B ≥ 1 − 2 k
Cuando no se conoce la distribución de la población, pero la muestra es grande, ￿ ￿ σ ¯ X → N µ, √n

Una vez vistos los aspectos generales de esta teoría, vamos a centrarnos ahora en algunas aplicaciones que nos permiten obtener intervalos de confianza para determinados estimadores. ⇒ Intervalo de confianza para la media cuando se conoce la varianza Hemos visto que, cuando la población se distribuye normalmente con ￿ ￿ σ parámetros µ y σ, la media muestral sigue una distribución N µ, √n . ¯ X − µ√ n ≈ N (0, 1) σ Por tanto, fijado un nivel de confianza 1 − α, podemos buscar en las tablas de la distribución normal aquel valor de kα tal que: ￿ ￿ ¯ X − µ√ P −kα ≤ n ≤ kα = 2F (kα ) − 1 = 1 − α σ Entonces:

esta probabilidad, puede expresarse también como: ￿ ￿ kα σ kα σ ¯ ¯ P X− √ ≤µ≤X+ √ =1−α n n entonces: ￿ ￿ ¯ − kα σ , X + kα σ ¯ √ X √ n n es un intervalo de confianza a un nivel 1−α, para la media poblacional.

16.3. ESTIMACIóN POR INTERVALOS

123

Nota 43. En concreto, cuando 1−α = 0, 95, el valor de kα = 1, 96, con lo que el intervalo de confianza al 95 %, para la esperanza de población, será: ￿ ￿ ¯ − 1, 96σ , X + 1, 96σ ¯ √ √ X n n

⇒ Intervalo de confianza para la diferencia de medias cuando se conoce la varianza Consideremos dos variables X ≈ N (µX , σX ) e Y ≈ N (µY , σY ), con 2 2 varianzas σX y σY conocidas, y para estimar la diferencia de medias, tomamos una muestra independiente de cada distribución de tamaños n y m respectivamente. Entonces la diferencia de medias muestrales sigue una distribución: ￿ ￿ ￿ 2 2 σX σY ¯ ¯ X − Y ≈ N µX − µY , + n m de forma análoga al caso anterior, fijado un nivel de confianza 1 − α, podemos encontrar en las tablas de la distribución normal aquel valor de kα tal que:   ¯ − Y ) − (µX − µY ) ¯ (X ￿ P −kα ≤ ≤ kα  = 2F (kα ) − 1 = 1 − α 2 2 σX σY + m n con lo cual: ￿ ￿ ￿ ￿ 2 2 2 2 σX σY ¯ ¯ σX σY ¯ ¯ ( X − Y ) − kα + , ( X − Y ) + kα + n m n m

es un intervalo de confianza para la diferencia de medias, a un nivel 1 − α. Nota 44. Como caso particular, cuando las varianzas poblacionales coinciden y el nivel de confianza se fija en el 95 %, el intervalo de confianza viene dado por: ￿ ￿ ￿ ￿ 1 1 ¯ ¯ 1 1 ¯ ¯ (X − Y ) − 1, 96σ + , (X − Y ) + 1, 96σ + n m n m Hemos visto en la ecuación 15.6.3 que el estadístico nS2 , sigue una σ distribución χ2 con n − 1 grados de libertad. En la tabla de la χ2 figuran las probabilidades acumuladas de la cola izquierda por lo que, fijado un nivel de confianza 1 − α, podemos ⇒ Intervalo de confianza para la varianza
2

124

16. ESTIMACIóN

encontrar, en la fila correspondiente a n − 1, números k1 y k2 de modo que: ￿ 2 ￿ ￿ 2 ￿ nS α nS α P ≤ k1 = , y P ≥ k2 = σ2 2 σ2 2 el intervalo resultante será muy próximo al óptimo. Generalmente, ésta es la técnica utilizada. De esta forma, el intervalo: ￿ 2 ￿ nS nS 2 , k2 k1 nos determina un intervalo de confianza para la varianza, a un nivel 1 − α. ⇒ Intervalo de confianza para la media de una población cuando no se conoce la varianza El estadístico: ¯ X −µ T = S
√ n−1

sigue una distribución t con n − 1 grados de libertad. Por tanto, fijado un nivel de confianza 1 − α, podemos encontrar en la tabla de la distribución t, en la fila correspondiente a n − 1, un valor kα , tal que: ￿ ￿ ¯ X −µ P −kα ≤ S ≤ kα = 1 − α
√ n−1

de donde: ￿

¯ − kα √ S ¯ + kα √ S X , X n−1 n−1 es un intervalo de confianza para la media poblacional (cuando no se conoce la varianza), para un nivel de confianza 1 − α. ⇒ Intervalo de confianza para la diferencia de medias cuando no se conoce la varianza El estadístico: ￿ ￿ ¯ ¯ ￿ nm X −Y n+m T = ￿ 2 2
nSX +mSY n+m−2 ￿

sigue una distribución t de Student con n + m − 2 grados de libertad. Luego, fijado un nivel de ocnfianza 1 − α, podemos encontrar en la tabla de la distribución t (en la fila correspondiente a n+m-2) aquel valor kα para el cual: P (kα ≤ T ≤ kα ) = 1 − α

16.3. ESTIMACIóN POR INTERVALOS

125

entonces, el intervalo: ￿ ￿ ￿ ￿ 2 2 2 2 (nSX + mSY ) (n + m) (nSX + mSY ) (n + m) ¯ ¯ ¯ ¯ ( X − Y ) − kα , ( X − Y ) + kα nm(n + m − 2) nm(n + m − 2) es de confianza a un nivel 1 − α, para estimar la diferencia de medias poblacionales. ⇒ Intervalo de confianza para la proporción Si en vez de observar una variable cuantitativa, se trata de una característica cualitativa, una estimación muy frecuente es la proporción de individuos de la población con unas determinadas características, a partir de la población observada en la muestra. La distribución del estimador P sigue un modelo binomial, cuyas características son: pq E(P ) = p , y V ar(P ) = n siendo p la proporción en la población y q = 1 − p. Para obtener intervalos de confianza de la proporción, cuando la muestra es grande hacemos uso de la aproximación de la binomial a la normal. De esta forma: P −p ￿ pq → N (0, 1) por lo que fijado un nivel de confianza 1 − α podemos determinar en las tablas el valor kα tal que: ￿ ￿ P −p P −kα ≤ ￿ pq ≤ kα = 1 − α
n n n→∞

Es un caso particular de la estimación de la media.

y por tanto: ￿

￿ pq pq p − kα , p + kα n n es un intervalo de confianza, a un nivel 1 − α, para la proporción. Cuando la varianza de la proporción pq es desconocida, se estima a n partir de la muestra mediante: P (1 − P ) n−1 Cuando la muestra es pequeña, debemos de recurrir a las tablas de la distribución binomial, en la cual fijado un nivel de confianza 1 − α, podemos encontrar dos valores del parámetro p: p1 y p2 tal que: ￿ P (X ≥ nP |p1 ) = α α y P (X ≤ nP |p2 ) = 2 2 ￿

n viene indicado por el tamaño de la muestra.

126

16. ESTIMACIóN

Entonces (p1 , p2 ) es un intervalo de confianza a un nivel 1 − α para estimar la proporción.

Capítulo 17

Contraste de hipótesis
Hasta el momento, nos hemos ocupado de estimar un valor puntual del parámetro o bien de obtener un intervalo en el cual ’probablemente’ se encuentre el parámetro. Nos planteamos ahora otro importante problema dentro de la Inferencia Estadística; y es cuando consideramos la muestra, no como la única fuente de información, sino como una información adicional que se emplea para contrastar alguna hipótesis o supuesto que se había establecido a partir de ciertos conocimientos previos sobre los parámetros poblacionales.

17.1.

Planteamiento general

Consideremos una variable aleatoria X cuya distribución depende de un parámetro θ, y supongamos que informaciones previas nos permiten formular algún supuesto acerca del valor hipotético de θ. Este supuesto sobre el comportamiento de θ se denomina hipótesis nula, y se denota por H0 . Para contrastar si la hipótesis es cierta o no, deberemos considerar alternativas a tal supuesto; estas opciones podemos incluirlas en una disyuntiva común a la hipótesis nula, a la cual se denomina hipótesis alternativa, y se designa por H1 . Cuando las hipótesis son tales que, de ser ciertas, especifican el valor del parámetro, se denominan hipótesis simples. En caso contrario se denominan hipótesis compuestas. Para contrastar cuál de las hipótesis H0 o H1 es ’cierta’, seleccionamos una muestra aleatoria de tamaño n de esa población, y comprobamos cuál de los supuestos está más de acuerdo con la información proporcionada por la muestra. Sin embargo, esta información desagregada no sabemos manejarla, a no ser de un modo intuitivo, por lo que se establece alguna regla o test que nos conduzca a un único valor, sobre el cual podemos analizar si las discrepancias con respecto a la hipótesis formulada son ’significativas’ o no.
127

Si no admitiésemos más posibilidades que H0 , no sentiríamos la necesidad de contrastar este supuesto.

128

17. CONTRASTE DE HIPóTESIS

Una seguridad plena, solo se tendría si la muestra alcanza a toda la población.

Evidentemente, nunca tendremos una certeza absoluta de que la elección de hipótesis cierta lo sea realmente, por lo que tendremos cierto riesgo de fallar nuestra decisión sobre la hipótesis verdadera. Tenemos dos formas de equivocarnos en la elección de la hipótesis verdadera: 1. Rechazar H0 cuando sea cierta 2. Aceptar H1 cuando sea falsa estos errores se denominan de tipo I y tipo II , respectivamente. Se podrían establecer diferentes reglas o test, lógicamente quisiéramos elegir una que hiciese mínimo el riesgo de cometer tales errores. Este riesgo puede medirse en términos de probabilidades: P (H0 /H0 F also) = β ,y P (H1 /H0 Cierto) = α Cada test, en función del tamaño de la muestra y de las probabilidades anteriores, divide al conjunto de valores posibles del parámetro en dos zonas: zona de aceptación y zona de rechazo. Disminuir la probabilidad de error tipo I, α, esto es, la probabilidad de rechazar la hipótesis cuando sea cierta, disminuye la zona de rechazo. Pero disminuir esta zona significa aumentar la de ’no rechazo’ y por tanto una mayor probabilidad de error tipo II. Por lo general, no tiene la misma incidencia un error que otro, sino que se considera más grave rechazar la hipótesis H0 cuando es cierta que aceptarla en caso contrario; por lo cual una forma coherente de proceder es la siguiente: ’Fijada una ’mínima’ probabilidad de cometer un error tipo I, α, a la que denominaremos nivel de significación, se elige aquel test que manteniéndose dentro de esos márgenes asigne una probabilidad menor al error tipo II, β, o lo que es lo mismo, aquél que tenga una mayor potencia 1 − β.’ Finalmente, elegido el test, éste nos conduce a una regla de decisión lógica: Se aplica el test sobre la información proporcionada por la muestra, y analizamos su resultado. Si este valor cae en la zona de rechazo, se rechaza la hipótesis nula (es aceptada la hipótesis alternativa), mientras que si cae en la zona de aceptación, tal hipótesis no es rechazada. 17.2. Algunos test importantes

Usualmente se elige α = 0, 05 o α = 0, 01.

Presentamos en este apartado algunas aplicaciones de la teoría anterior, que con frecuencia se utilizan para contrastar hipótesis.

17.2. ALGUNOS TEST IMPORTANTES

129

⇒ Test para contrastar la media cuando se conoce la varianza Sea X una v.a. de la cual suponemos conocida su varianza. Queremos realizar algunos contrastes acerca del valor esperado de la variable 1. Si es uno determinado µ0 : H0 : µ = µ0 , H1 : µ ￿= µ0 2. Si es menor o igual a µ0 : H0 : µ ≤ µ0 , H1 : µ > µ0 3. Si es mayor que µ0 : H0 : µ > µ0 , H1 : µ ≤ µ0 Para ello, tomamos una muestra aleatoria de tamaño n de esta población, (X1 , · · · , Xn ). Sabemos que cuando X sigue una ley normal, entonces la media muestral también sigue una distribución normal: ￿ ￿ σ X ≈ N µ, √n Por tanto: ¯ X − µ√ n ≈ N (0, 1) σ Contrastes: 1. H0 : µ = µ0 frente a H1 : µ ￿= µo Supongamos la hipótesis µ = µ0 , en cuyo caso: ¯ X − µ0 √ n ≈ N (0, 1) σ entonces fijado un nivel de significación α, podemos encontrar en las tablas de la normal, aquel valor kα tal que: ￿ ￿ ¯ X − µ0 √ P −kα ≤ n ≤ kα = 1 − α σ probabilidad que también se puede expresar como: ￿ ￿ σ σ ¯ P µ0 − k α √ ≤ X ≤ µ0 + k α √ =1−α n n El intervalo: ￿ ￿ σ σ µ0 − k α √ , µ 0 + k α √ n n

Si X no es normal, pero n grande (n ≥ 30), entonces X → ￿ ￿ σ N µ, √n

corresponde a la zona de aceptación, donde, en buena lógica, debería de encontrarse la media muestral, con una probabilidad 1 − α, si nuestra hipótesis fuera cierta. La región de rechazo será: ￿ ￿ ￿ ￿ σ ￿ σ (17.2.1) −∞, µ0 − kα √ µ0 + kα √ , +∞ n n Las zonas de aceptación y de rechazo están determinadas por el nivel de significación y el tamaño muestral; una vez fijados

130

17. CONTRASTE DE HIPóTESIS

Regla de decisión: se calcula la media sobre la muestra obtenida, y se rechaza o no la hipótesis nula, según que su valor se encuentre en la zona de aceptación o de rechazo respectivamente. 3. H0 : µ > µ0 frente a H1 : µ ≤ µ0 Con el mismo test que en 2., la regla de decisión es la siguiente: σ Si la media muestral es menor o igual que µ0 − kα √n se rechaza la hipótesis y en otro caso no se rechaza. ⇒ Test para contrastar la diferencia de medias cuando se conoce la varianza Hemos visto en temas anteriores, que el estadístico: ¯ ¯ (X − Y ) − (µX − µY ) ￿ ≈ N (0, 1) 2 2 σX σY + m n Fijado un nivel de significación α, podemos encontrar en la tabla de la distribución normal el valor kα tal que: con lo cual, la región de aceptación es: ￿ ￿ ￿ ￿ 2 2 2 2 σX σY σX σY (µX − µY ) − kα + , (µX − µY ) + kα + n m n m Contrastes: P (−kα ≤ N (0, 1) ≤ kα ) = 1 − α

éstos dichas zonas resultan conocidas (la variable es conocida y la esperanza la suponemos cierta). Regla de decisión: Se toma una muestra concreta (x1 , · · · , xn ) y calculamos su media, si ésta cae en la zona de aceptación, no rechazamos la hipótesis de que la esperanza de X es µ0 , a un nivel de significación α. En otro caso, se rechaza tal hipótesis. 2. H0 : µ ≤ µ0 frente a H1 : µ > µ0 Fijado el nivel de significación α , podemos encontrar un kα en las tablas de la normal, tal que: ￿¯ ￿ X − µ0 √ P n ≤ kα = 1 − α σ ￿ ￿ σ ¯ ≤ µ0 + kα √ = 1 − α por lo que las regiones con lo cual. p X n de aceptación y rechazo son respectivamente: ￿ ￿ ￿ ￿ σ σ −∞, µ0 + kα √ , y µ0 + kα √ , +∞ n n

17.2. ALGUNOS TEST IMPORTANTES

131

1. Las poblaciones tienen igual media: H0 : µX = µY frente a H1 : µX ￿= µY En este caso la región de aceptación es: ￿ ￿ ￿ ￿ 2 2 2 2 σX σY σX σY −kα + , +kα + n m n m Regla de decisión: Si la diferencia de las medias muestrales no pertenece a ese intervalo, se rechaza la hipótesis. En otro caso no se rechaza. 2. H0 : µX ≤ µY frente a H1 : µX > µY En este caso, determinaremos el valor de kα tal que: P (N (0, 1) ≤ kα ) = 1 − α Regla de decisión: si, ￿ 2 σ2 ¯ ¯ X − Y > kα X + Y n m se rechaza la hipótesis, en otro caso no se rechaza. 3. H0 : µX > µY frente a H1 : µX ≤ µY En este caso utilizamos el mismo test que en 2. Regla de decisión: Si ￿ 2 σ2 ¯ ¯ X − Y ≤ −kα X + Y n m se rechaza, en otro caso no se rechaza. ⇒ Test para contrastar la varianza de una distribución normal. 2 Ya hemos visto en varias ocasiones que nS2 sigue una distribución χ2 σ con n-1 grados de libertad. Fijado un nivel de significación α, podemos encontrar en la tabla de la distribución χ2 , en la fila correspondiente a n − 1 dos números k1 y k2 , tales que: ￿ 2 ￿ ￿ 2 ￿ nS α nS α P ≤ k1 = , y P ≥ k2 = 2 2 σ 2 σ 2 Contrastes: 2 2 1. H0 : σ 2 = σ0 frente a H1 : σ 2 ￿= σ0 La región de aceptación es: ￿ ￿ 2 2 σ0 σ0 k1 , k2 n n Regla de decisión:

La región de rechazo siempre va en la misma dirección que la hipótesis alternativa.

132

17. CONTRASTE DE HIPóTESIS ￿

1 Calculamos la varianza muestral: n n (zi − x)2 , si este ¯ i=1 valor no se encuentra en la zona de aceptación, rechazamos la hipótesis y en otro caso no la rechazamos. 2 2 2. H0 : σ 2 ≤ σ0 frente a H1 : σ 2 > σ0 En las tablas de la distribución χ2 , se obtiene un valor kα , tal que: ￿ 2 ￿ nS P ≤ kσ = 1 − α σ2 Regla de decisión: Se calcula la varianza muestral, y si su valor es mayor que kα n0 , se rechaza la hipótesis y en otro caso no se rechaza. 2 2 3. H0 : σ 2 > σ0 frente a H1 : σ 2 ≤ σ0 Se determina kα de modo que: ￿ 2 ￿ nS P ≤ kα = α σ2
σ2 σ2

Regla de decisión: se calcula la varianza muestral, si ésta es

menor o igual que kα n0 , se rechaza la hipótesis y en otro caso se acepta. ⇒ Test para contrastar la media cuando no se conoce la varianza. El estadístico: ¯ X − µ√ n−1 S sigue una distribución t, con n − 1 grados de libertad. Contrastes: 1. H0 : µ = µ0 frente a H1 : µ ￿= µ0 En las tablas de la distribución t, fijado un nivel de significación α, podemos encontrar un número kα , en la fila correspondiente a n − 1, tal que: T = entonces, el intervalo: ￿ ￿ s s µ0 − k α √ , µ 0 + kα √ n−1 n−1 es la región de aceptación del test. Regla de decisión: Calculamos la media muestral; si no pertenece al intervalo anterior rechazamos la hipótesis, en otro caso no la rechazamos. P (−kα ≤ t ≤ kα ) = 1 − α

17.2. ALGUNOS TEST IMPORTANTES

133

2. H0 : µ ≤ µ0 frente a H1 : µ > µ0 Fijado un nivel α, determinamos kα en la tabla de la distribución t, tal que: (17.2.2) P (tn−1 ≤ kα ) = 1 − α

Regla de decisión: Calculamos la media de la muestra; si S ésta es mayor que µ0 + kα √n−1 rechazamos la hipótesis, en otro caso no lo rechazamos. 3. H0 : µ > µ0 frente a H1 : µ ≤ µ0 Regla de decisión: Si la media muestral nos sale menor o S igual que µ0 − kα √n−1 , siendo kα determinado por la ecuación 17.2.2, rechazamos la hipótesis y en otro caso no la rechazamos. ⇒ Test para contrastar la diferencia de medias cuando no se conoce la varianza. Estadístico: ¯ ¯ ￿ nm (X − Y ) n+m t= ￿ 2 2
nSX +mSY n+m−2

se distribuye como una t de Student con n + m − 2 grados de libertad. Contrastes: 1. H0 : µX = µY frente a H1 : µX ￿= µY Fijado un nivel de significación α, podemos determinar en las tablas de la distribución t, en la fila correspondiente a n + m − 2 el valor kα , tal que: El intervalo: ￿￿ ￿￿ ￿ ￿￿ ￿￿ 2 2 2 2 nSX + mSY n+m nSX + mSY n+m , +kα n+m−2 nm n+m−2 nm P (−kα ≤ t ≤ kα ) = 1 − α ￿

−kα ￿￿

determina la región de aceptación del test. Regla de decisión: Si la diferencia de medias cae fuera de ese intervalo se rechaza la hipótesis. En otro caso no se rechaza. 2. H0 : µX ≤ µY frente a H1 : µX > µY Regla de decisión: Se rechaza la hipótesis si la diferencia de medias es mayor que: ￿￿ ￿￿ ￿ 2 2 nSX + mSY n+m (17.2.3) kα n+m−2 nm

134

17. CONTRASTE DE HIPóTESIS

rechazamos la hipótesis, en otro caso no la rechazamos. ⇒ Prueba del buen ajuste El test que ahora presentamos tiene un planteamiento muy diferente al de las pruebas anteriores; este test pretende contrastar si la distribución de una variable aleatoria es una determinada o no. Cuando nos encontramos con una distribución empírica, nos interesa conocer el modelo teórico que ésta sigue, puesto que este modelo es una idealización de esa realidad que nos permitirá extrapolar conclusiones sobre los nuevos o futuros valores que puedan llegar a ser reales. Pero, en general, no conoceremos este modelo, por lo que hecha la hipótesis de que éste es uno determinado, cabe preguntarse ¿qué tal de bien se ajusta ese modelo a la realidad existente? Para contrastar si se ajusta bien o mal, se construye un test, de la χ2 , que analiza las discrepancias entre las frecuencias ni observadas en una determinada muestra de tamaño n, y sus respectivas frecuencias teóricas que se hubieran presentado si este modelo fuera cierto, npi . Fijado un nivel de significación, α, si las discrepancias son significativas, se rechaza la hipótesis y en otro caso no se rechaza. La medida de discrepancia empleada o test χ2 de la bondad de ajuste, es la siguiente: d=
n ￿ (ni − npi )2 i=1

3. H0 : µX > µY frente a H1 µX ≤ µY Regla de decisión: Si la diferencia de medias es menor o igual al valor opuesto de 17.2.3, ￿￿ ￿￿ ￿ 2 2 nSX + mSY n+m ¯ − Y ≤ −kα ¯ X n+m−2 nm

donde kα , para un nivel de significación α, viene determinado por: P (tn+m−2 ≤ kα ) = 1 − α

npi

puede demostrase que d sigue una distribución χ2 con n − 1 grados de libertad, cuando no existen parámetros indeterminados. Si a partir de la misma muestra necesitamos estimar un número k de parámetros, entonces d sigue una distribución χ2 , con (n−1)−k grados de libertad. Nota 45. Para que las aproximaciones sean buenas, debemos realizar las agrupaciones oportunas de modo que: npi ≥ 5

17.2. ALGUNOS TEST IMPORTANTES

135

Entonces, fijado un nivel de significación α, podemos determinar en las tablas de la χ2 , el valor kα , tal que: Regla de decisión: Calculamos el valor de d, sobre la muestra elegida; si d > kα , se rechaza la hipótesis al nivel de significación α. En otro caso no se rechaza la hipótesis. P (d ≤ kα ) = 1 − α

Capítulo 18

Diseño de encuestas. Muestreo en poblaciones finitas
Hasta ahora, se ha hecho uso de la inferencia estadística para realizar estimaciones, contrastes de hipótesis u obtener intervalos de confianza; pero siempre partiendo de la base de que la población era infinita (o que la muestra se elige por un método aleatorio con reposición, en cuyo caso el muestreo puede equipararse al correspondiente de poblaciones infinitas). Abordamos en este tema algunas alternativas a los planteamientos anteriores, cuando la población es finita, tales como: ♦ ¿Qué pasos deben seguirse para diseñar una encuesta? ♦ ¿Qué métodos de selección de la muestra suelen emplearse? ♦ ¿Alteran estos métodos los estimadores obtenidos en poblaciones infinitas? ♦ ¿Alguno de ellos mejora la precisión de las estimaciones? ♦ ¿Los errores que introducen las muestras harán desaconsejables tales técnicas? ♦ ¿Cual será el tamaño óptimo de una muestra? Esperamos dar respuesta a estas cuestiones en las próximas secciones. 18.1. Conceptos básicos

Hasta ahora hemos considerado las poblaciones infinitas, lo que nos facilita el tratamiento de los procesos de estimación en un doble sentido: i Nos permite utilizar el aparato matemático en toda su amplitud (tenemos garantizado el paso al límite) ii Cada extracción puede considerarse independiente de las demás, y esto nos simplifica el cálculo de la distribución de la muestra, al poder expresarla como producto de las distribuciones de cada componente. Sin embargo, en la práctica, tal hipótesis de infinitud, por lo general, no se cumple ya que las poblaciones usuales son finitas; limitándose aquéllas a casos muy idealizados y que se ajustan poco a la realidad.
137

138 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS

En cualquier proceso de estimación, existe un problema básico que es la obtención de la información, la cual está generalmente en los individuos (o grupos de individuos) que componen la población, a los que se les denomina unidades elementales o unidades primarias. Las encuestas pueden ser muestrales o censales: Definición. Una encuesta censal o censo recaba información sobre ciertas características de todos y cada uno de los elementos que componen la población. Definición. La encuesta muestral recoge información sólo de una parte de la población, seleccionada para formar una muestra representativa de la misma. En general, la población posee ciertos parámetros desconocidos que se tratan de estimar, y que en poblaciones finitas se denominan valores verdaderos. Usualmente, estos parámetros son la media, el total o la proporción. Aun cuando se haga una encuesta censal, tales valores verdaderos resultarán desconocidos; las limitaciones en los instrumentos empleados y múltiples fuentes de error (se analizan más adelante) hacen que puedan obtenerse unos valores próximos a los verdaderos (pero no éstos de forma exacta) a los que se denomina valores observados. Como no siempre se puede realizar una encuesta censal, para estimar los valores verdaderos se utilizan encuestas muestrales, que empleando estimadores ’adecuados’ proporcionan estimaciones fiables en ’cierta medida’. Las estimaciones, por lo general, vendrán afectadas de una serie de errores, que en forma global se conocen como errores debidos al muestreo; en estos se distinguen dos componentes: una componente aleatoria del error debido a la propia elección de la muestra, que se denomina error de muestreo; y otra componente en la que se encuadran los errores sistemáticos que no dependen del azar y que se llama sesgo. Finalmente, en relación con la fiabilidad de las estimaciones surgen dos nuevos conceptos: precisión y acuracidad . Dados dos métodos de estimación, se dice que uno es más preciso que otro, si nos conduce a un menor error de muestreo; y se dice que es más acurado si es más pequeño su error debido al muestreo. 18.2. Diseño de una encuesta

Desarrollamos en esta sección las diversas etapas que deben tenerse en cuenta para la realización de una encuesta.

18.2. DISEñO DE UNA ENCUESTA

139

Como paso previo a cualquier otro, deben delimitarse los objetivos que se persigue con una encuesta, qué información se necesita para cubrir estos objetivo y dónde se encuentra esa información. Esta etapa previa es de suma importancia, pues debemos tener presente que, cuando se hace un estudio estadístico de una realidad empírica, la información resulta siempre muy costosa y los medios económicos disponibles, generalmente, son escasos. Se plantea por tanto un típico problema de asignación de recursos para optimizar el binomio coste-información; en consecuencia, el diseño o planificación de la encuesta es decisivo para rentabilizar la relación anterior. Partiendo de esta observación, podrá entenderse mejor la importancia de conseguir un buen engranaje entre las diversas etapas que constituyen una encuesta. Éstas, de forma sintética, son las siguientes: 1. El cuestionario. El cuestionario es el instrumento que facilita la transición de la información desde el informador individual al receptor. Esta información se plasma a través de una serie de preguntas que constituyen el cuestionario. La fiabilidad de los resultados de una encuesta dependerá en gran medida de la presentación del cuestionario, por lo que debe prestarse la máxima atención a su elaboración. Algunas consideraciones a tener en cuenta son: a El número de preguntas: Ha de ser suficiente para recoger la información necesaria, pero a la vez no ha de ser excesivo El censo agrario ya que puede conducir a un agotamiento en el entrevistado tiene más de 800 y esto a un falseamiento de la información suministrada por preguntas. el mismo. b Forma de presentar las preguntas: Las preguntas pueden ser: dicotómicas, de varias alternativas y de respuesta libre. Estas últimas son las que plantean mayores problemas dada su dificultad de tabulación. c Redacción correcta de las preguntas: Este es un factor importante en la elaboración del cuestionario. Las preguntas deben ser redactadas con claridad y expresadas en un lenguaje afín al colectivo al que va dirigida la encuesta. d Evitar preguntas tendenciosas: Estas podrían no sólo sesgar esta respuesta, sino también producir un falseamiento en las restantes. e Orden de las preguntas: Existen algunos estudios sobre este aspecto, de los cuales se desprende que el informador presta más atención a las preguntas situadas al principio y al

140 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS

2.

3.
Para estudiar el nivel de conocimientos de los alumnos de primaria, los colegios, son conglomerados Para estudiar el nivel de conocimientos de los alumnos de primaria, los cursos dentro de un colegio son estratos.

4.

5.

final del cuestionario. Por tanto es conveniente establecer una ’buena’ ordenación de las preguntas, dado que no todas las preguntas revisten la misma importancia de cara a la exactitud de los resultados. El marco. Se conoce como marco al conjunto de información necesaria, sobre el colectivo al cual va dirigida la encuesta, para su aplicación. De esta información cabe distinguir el listado de las unidades que componen la población (que servirá de base para la selección de la muestra), y otras informaciones complementarias sobre este colectivo que serán de utilidad en otras etapas de la elaboración de la encuesta; estos tipos de información se conocen como marco en sentido restringido y sentido amplio, respectivamente Conglomerados de unidades. En muchas ocasiones no resulta posible acceder a las unidades elementales que componen la población, por lo que se recurre a la formación de conglomerados o agrupación de estas unidades en subpoblaciones, de modo que cada una de ellas sea una ’cuasi-representación’ a escala de la población; esto es, existe una heterogeneidad entre las unidades que componen cada conglomerado, mientras que entre conglomerados se mantiene una gran similitud u homogeneidad. Los conglomerados pueden considerarse como unidades secundarias cuya finalidad es facilitarnos el acceso a las unidades primarias o elementales. Estratificación. Estratificación es el proceso por el cual se divide a la población en subpoblaciones o estratos, generalmente motivados por circunstancias geográficas, económicas o sociales. La formación de estratos tiene un planteamiento muy diferente a la seguida en los conglomerados; en este caso, se agrupan elementos de la población que posean ciertas características comunes, logrando así una homogeneidad dentro del estrato y por lento una heterogeneidad entre estratos. Los fines que se persiguen con la estratificación son: a Mejorar la precisión de las estimaciones globales, mediante la agrupación de unidades homogéneas. b Obtener estimaciones separadas para ciertas subpoblaciones. c Utilizar métodos de muestreo diferentes en cada estrato. Métodos de selección.

18.3. MéTODOS DE SELECCIóN

141

6. Estimación. Estas dos etapas se desarrollan en las próximas secciones. 7. Trabajos de campo. Se incluyen en este apartado las labores de recogida de datos, selección y adiestramiento de agentes y supervisores, redacción de manuales e instrucciones, etc.; es decir, abarca todos aquellos trabajos que están relacionados de forma directa con la recogida de la información. 8. Tabulación. El proceso de tabulación incluye la elaboración de tablas, informatización y depuración de datos, etc. 9. Evaluación de resultados. Se incluyen en esta etapa el análisis e interpretación de resultados, análisis de costes, discrepancias entre el diseño teórico y su aplicación, etc. 18.3. Métodos de selección

Describiremos en esta sección las técnicas de muestreo más utilizadas en la selección de muestras en poblaciones finitas, pero antes de entrar en tales técnicas, nos planteamos la necesidad de tomar tales muestras. Existen circunstancias en las que no es posible observar a la población en su totalidad y, por tanto, se hace necesario recurrir a la toma de muestras. Tales circunstancias son: 1. Cuando la población es infinita o tan grande que exceda las posibilidades del investigador. 2. Cuando el proceso sea destructivo esto es, cuando cada observación de las unidades elementales, lleva consigo su destrucción. Otras circunstancias que hacen que, aunque no necesario, si sea muy conveniente el empleo de muestras para hacer inferencias sobre toda la muestra. Estas pueden ser: 1. Cuando la población sea suficientemente uniforme para determinadas características, de modo que cualquier muestra de esta población sería una ’buena’ representación de la misma. En esta situación, observar a toda la población sería un derroche de medios, y la ganancia de información no compensaría la obtenida a partir de una muestra. 2. Razones económicas. Estas razones son de dos tipos: por un lado, el ahorro económico propiamente dicho que se obtiene cuando en vez de observar todos los elementos que componen

142 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS

El tiempo empleado en realizar una encuesta censal a la población española, desde su diseño hasta la publicación de resultados, fácilmente supera los 2-3 años.

un colectivo, se observa una parte de ellos; pero por otro lado, también existe un ahorro importante en tiempo, y esto lleva consigo un coste de oportunidad como consecuencia de la anticipación en la toma de decisiones sobre las informaciones muestrales. 3. Calidad. Toda encuesta conduce a una serie de errores y no solamente de muestreo, sino también de observación. El realizar una encuesta muestral tiene la ventaja sobre el censo de que se observan menos elementos, y por tanto se puede cuidar más la precisión en la observación o medida de cada unidad (este punto se analizará con más detalle en la última sección de este tema). Pasamos ya a describir las principales técnicas de muestreo en poblaciones finitas. Definición. Llamamos método de muestreo o simplemente muestreo, al procedimiento mediante el cual se obtiene una o más muestras. Los métodos de muestreo se clasifican en probabilísticos y no probabilísticos, según que a cada muestra posible se le pueda asignar una probabilidad de selección o no. Los métodos de muestreo probabilísticos más importantes son: 1. Muestreo aleatorio con reposición. Este método de muestreo consiste en observar una unidad y reponerla a la población; de esta forma, las extracciones son independientes y todas las unidades tienen la misma probabilidad de salir elegidas, así como también la tienen todas las muestras posibles. Esta técnica de selección coincide con el muestreo en poblaciones infinitas, pues una unidad puede aparecer sucesivas veces en la muestra. 2. Muestreo aleatorio sin reposición. Con esta técnica de muestreo, cada unidad observada no se devuelve a la muestra, con lo que cada unidad sólo puede aparecer una vez en la muestra. Todas las unidades tienen la misma probabilidad de ser elegidas, pero ésta no es independiente del orden de las extracciones, sino que dependerá de las unidades que previamente hayan sido elegidas. 3. Muestreo estratificado. Cuando la población se divide en estratos, el método de muestreo que selecciona de cada uno un número aleatorio de unidades para formar parte de la muestra, se denomina muestreo estratificado. Se denomina afijación a la distribución que se hace de la muestra sobre los diferentes estratos. Las afijaciones pueden ser de diferentes tipos, normalmente

18.3. MéTODOS DE SELECCIóN

143

se utilizan: afijaciones uniformes, proporcionales, de mínima varianza y óptimas. Una afijación se dice uniforme si todos los estratos aportan el mismo número de unidades a la muestra. Llamamos afijación proporcional , aquélla en la que cada estrato aporta un número de unidades a la muestra proporcional a su tamaño. Una afijación se dice de mínima varianza, si el reparto de la muestra en los diferentes estratos se hace de forma que la varianza del estimador sea mínima. Finalmente, se denomina afijación óptima a aquella distribución de la muestra que, para una precisión fijada, minimiza el coste de la encuesta muestral, o recíprocamente, fijado un presupuesto o coste, se elige el reparto de la muestra que nos conduzca a una precisión mayor. 4. Muestreo por conglomerados. Este método de selección consiste en sustituir las unidades elementales o primarias por conglomerados o reunión de aquéllas y considerar a éstos como unidades de muestreo sobre las cuales se seleccionará la muestra por un método aleatorio. 5. Muestreo sistemático. Este método de muestreo consiste en dividir la población, una vez ordenada, en un número de grupos igual al tamaño de la muestra, de modo que cada uno contenga el mismo número de unidades; a partir de aquí, se elige aleatoriamente un elemento del primer grupo, formando el resto de la muestra las unidades que ocupen en su grupo la misma posición que el primero. 6. Muestreo bietápico. Cuando se hacen selecciones aleatorias en dos etapas, el muestreo se denomina bietápico. En una primera etapa se seleccionan los conglomerados, a partir de los cuales se va a obtener la muestra, y en una segunda etapa es cuando se muestrean las unidades elementales que la conformarán. La generalización del muestreo bietápico a más etapas se denomina muestreo polietápico.

El coste de entrevistar una unidad depende de su ubicación, y por tanto del estrato en que se encuadra.

Entre los muestreos no probabilísticos, destacan el muestreo opinático y el muestreo por cuotas. El muestreo opinático o intencional deja libertad al entrevistador que selecciona la muestra para elegir las unidades que la deben componer.

144 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS

El muestreo por cuotas, es una variante del anterior, donde el entrevistador elige un número de unidades proporcional al de las que cumplen ciertas condiciones en la población, siendo subjetiva la elección de esas unidades. 18.4. Métodos de estimación y contrastes

Abordamos en este apartado la estimación y contraste en poblaciones finitas de la media, el total, la proporción y el total de clase, cuando los métodos de selección son aleatorios con y sin reposición. Consideremos una población finita de tamaño N , w1 , · · · , wN , sobre la cual está definida una variable X que toma valores x1 , · · · , xN (algunos de los cuales pueden repetirse). Se denomina media y total poblacional , al valor de las expresiones: ¯ X=
N ￿ xi i=1

N

,y X=

respectivamente. Si la característica a observar es cualitativa, la proporción y el total de clase poblacional , de la ocurrencia de una determinada modalidad A, viene dada por: p=
N ￿ Ai i=1

N ￿ i=1

xi

N

,y A=

respectivamente; siendo Ai un indicador que a cada unidad asigna el uno o el cero según que esa unidad verifique o no la modalidad A. Para estimar estas cantidades supongamos que se selecciona una muestra de tamaño n, (x1 , · · · , xn ) mediante un método aleatorio con o sin reposición. ⇒ Estimadores insesgados. Nota 46. Los estimadores: ˆ x= ¯ y: p= ˆ
n ￿ xi i=1

N ￿ i=1

Ai

n

,

ˆ x = Nx ˆ ¯

son insesgados para estimar la media, el total, la proporción y el total de clase respectivamente, cuando la selección es aleatoria con o sin reposición.

n ￿ Ai i=1

n

,

ˆ A = Np ˆ

18.4. MéTODOS DE ESTIMACIóN Y CONTRASTES

145

Estos estimadores se conocen como: media muestral , total muestral , proporción muestral y total de clase muestral , respectivamente. ⇒ Estimadores de las varianzas. Distinguiendo el tipo de muestreo, se tiene: Nota 47. En un muestreo aleatorio con reposición, los estimadores: ˆ ￿ ￿ S2 ￿ ˆ V ar x = ¯ n , ˆ S2 ￿ x V ar (ˆ) = N 2 n

y ￿

￿ pq ˆˆ pq ˆˆ ￿ ˆ , V ar A = N 2 n−1 n−1 son insesgados para estimar la varianza de los estimadores de la media, ˆ el total, la proporción y el total de clase, respectivamente; siendo S 2 la ￿ ￿ ￿ n ( xi − x) 2 ˆ ¯ ˆ cuasi-varianza S 2 = , y q = 1 − p. ˆ ˆ ￿ p V ar (ˆ) =
i=1 n−1

Nota 48. En un proceso de selección aleatorio sin reposición, los estadísticos: ￿ ˆ ˆ ￿ ￿ ￿ n ￿ S2 n ￿ S2 ￿ ˆ ￿ x V ar x = 1 − ¯ , V ar (ˆ) = N 2 1 − N n N n y ￿ ￿ ￿ ￿ n ￿ pq ˆˆ n ￿ pq ˆˆ ￿ p ￿ ˆ V ar (ˆ) = 1 − , V ar A = N 2 1 − N n−1 N n−1 son insesgados de la varianza de los estimadores de la media, el total, la proporción y el total de clase respectivamente (siendo q y S 2 los ˆ ˆ definidos anteriormente). ⇒ Intervalos de confianza. Habíamos visto con anterioridad que, cuando una variable aleatoria sigue una distribución normal, el estadístico: ¯ X − µ√ t= n−1 S sigue una distribución t de Student con n − 1 grados de libertad; siendo S2 la varianza estimada. n−1 ˆ Si en vez de la varianza muestral S 2 , se emplea la cuasi-varianza S 2 , ˆ2 la varianza estimada es: S , por lo que el estadístico t puede expresarse n como: ¯ X − µ√ t= n ˆ S

146 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS

Entonces fijado un nivel de confianza 1 − α, podemos determinar en las tablas de la distribución t, en la fila correspondiente a n − 1, el valor de kα tal que: (18.4.1) a partir del cual construimos el intervalo: ￿ ￿ ˆ ˆ S S ¯ ¯ X − k α √ , X + kα √ n n en el que se encontrará el parámetro poblacional con un nivel de confianza 1 − α. Basándonos en este intervalo, podemos obtener los correspondientes intervalos para la media, el total, la proporción y el total de clase, sin más que sustituir el estimador y su varianza estimada (que depende del tipo de muestreo y vienen dadas en las notas 47 y 48) en cada caso por las expresiones respectivas. De este modo se tiene: 1. Muestreo aleatorio con reposición: i Intervalo de confianza para la media: ￿ ￿ ˆ ˆ S S ˆ ˆ (18.4.2) x − kα √ , x + kα √ ¯ ¯ n n ii Intervalo de confianza para el total: ￿ ￿ ˆ ˆ S S ˆ ˆ (18.4.3) N x − kα N √ , N x + kα N √ ¯ ¯ n n iii Intervalo de confianza para la proporción: ￿ ￿ ￿ ￿ pq ˆˆ pq ˆˆ (18.4.4) p − kα ˆ , p + kα ˆ n−1 n−1 iv Intervalo de confianza para el total de clase: ￿ ￿ ￿ ￿ pq ˆˆ pq ˆˆ (18.4.5) N p − kα N ˆ , N p + kα N ˆ n−1 n−1 2. Muestreo sin reposición: i Intervalo de confianza para la media: ￿ ￿ ￿ ￿ ˆ ˆ n S n S ˆ ˆ (18.4.6) x − kα 1 − √ , x + kα 1 − √ ¯ ¯ N n N n P (−kα ≤ t ≤ kα ) = 1 − α

18.4. MéTODOS DE ESTIMACIóN Y CONTRASTES

147

ii Intervalo de confianza para el total: ￿ ￿ ￿ ￿ ˆ ˆ n S n S ˆ ˆ (18.4.7) N x − kα N 1 − √ , N x + kα N 1 − √ ¯ ¯ N n N n iii Intervalo de confianza para la proporción: ￿ ￿ ￿￿ ￿￿ n ￿ pq ˆˆ n ￿ pq ˆˆ (18.4.8) p − kα ˆ 1− , p + kα ˆ 1− N n−1 N n−1 (18.4.9) ￿ iv Intervalo de confianza para el total de clase: ￿￿ n ￿ pq ˆˆ 1− , N p + kα N ˆ N n−1 ￿￿ n ￿ pq ˆˆ 1− N n−1 ￿

N p − kα N ˆ

En cada caso, estos intervalos corresponden a un nivel de confianza 1 − α y kα se determina en la forma señalada anteriormente. ⇒ Contraste de Hipótesis. Siguiendo el esquema del capítulo anterior, y teniendo en cuenta las correspondientes expresiones de la varianza estimada, se tiene: 1. Regiones de aceptación para contrastar que el parámetro ¯ poblacional es uno determinado (X0 , X0 , p0 , A0 ), a un nivel de significación α. i Muestreo con reemplazamiento: ￿ ￿ ˆ ˆ S S ¯ ¯ (18.4.10) X 0 − kα √ , X 0 + kα √ n n (18.4.11) ￿ ￿ ˆ ˆ S S X 0 − kα N √ , X 0 + kα N √ n n ￿ p 0 q0 , p 0 + kα n ￿ ￿ p 0 q0 n ￿ ￿ ￿ p 0 q0 n ￿

(18.4.12)

p 0 − kα ￿

(18.4.13)

A0 − kα N

p 0 q0 , A 0 + kα N n

ii Muestreo sin reemplazamiento: ￿ ￿ ￿ ￿ ˆ ˆ n S n S ¯ ¯ (18.4.14) X 0 − kα 1 − √ , X 0 + kα 1 − √ N n N n

148 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS

(18.4.15) ￿

￿ ￿

X 0 − kα N ￿￿ ￿￿ ￿

ˆ n S 1 − √ , X 0 + kα N N n ￿

￿ ˆ n S 1− √ N n n ￿ p 0 q0 1− N n ￿ ￿

(18.4.16)

p 0 − kα

n ￿ p 0 q0 1− , p 0 + kα N n ￿￿

(18.4.17)

A0 − kα N

Son las regiones de no rechazo de: ¯ ¯ H0 : X = X0 , H0 : X = X0 , H0 : p = p0 y H0 : A = A0

n ￿ p 0 q0 1− , A 0 + kα N N n ￿￿

n ￿ p 0 q0 1− N n

respectivamente, frente a las alternativas de ser distintos, con un nivel de significación α. En todos los casos, el coeficiente kα se determina de la forma indicada en la ecuación 18.4.1. 2. Regiones de rechazo para contrastar si el parámetro pobla¯ cional es menor o igual a uno determinado (X0 , X0 , p0 , A0 ), a un nivel de significación α. i Muestreo con reemplazamiento: ￿ ￿ ˆ S ¯ (18.4.18) X0 + kα √ , +∞ n (18.4.19) ￿ ￿ ￿ ￿ ˆ S X0 + kα N √ , +∞ n ￿ p 0 q0 , +∞ n ￿

(18.4.20) (18.4.21)

p 0 + kα

A0 + kα N

ii Muestreo sin reemplazamiento: ￿ ￿ ￿ ˆ n S ¯ (18.4.22) X0 + kα 1 − √ , +∞ N n (18.4.23) ￿ ￿ ￿ ˆ n S X0 + kα N 1 − √ , +∞ N n ￿ ￿

p 0 q0 , +∞ n

18.5. TAMAñO DE LA MUESTRA Y ERROR DE MUESTREO

149

(18.4.24) (18.4.25) ￿

Son, respectivamente, las regiones de rechazo para contrastar las hipótesis nulas: ¯ ¯ H0 : X ≤ X0 , H0 : X ≤ X0 , H0 : p ≤ p0 y H0 : A ≤ A0 frente a las hipótesis alternativas: ¯ ¯ H1 : X > X0 , H1 : X > X0 , H1 : p > p0 y H1 : A > A0 ￿

n ￿ p 0 q0 p 0 + kα 1− , +∞ N n ￿￿ ￿ ￿ n ￿ p 0 q0 A0 + k α N 1− , +∞ N n ￿￿

donde fijado el nivel de significación α, el coeficiente kα se determina en la tabla de la distribución t, en la intersección de la fila correspondiente a n − 1 g.l. y la columna en que el área de una cola coincide con α. 3. Regiones de rechazo para contrastar si el parámetro pobla¯ cional es mayor a uno determinado (X0 , X0 , p0 , A0 ), a un nivel de significación α, son las complementarias de las obtenidas en el punto anterior, sustituyendo kα (que se calcula de la misma forma), por su opuesto. Regla de decisión: En todos los casos se reduce a calcular el valor del parámetro en la muestra, y rechazar o no rechazar la hipótesis según que éste pertenezca a la correspondiente región de rechazo o de aceptación. 18.5. Tamaño de la muestra y error de muestreo

Si medimos el error de muestreo como la desviación en términos ˆ absolutos entre el valor estimado θ y el valor observado en la población ￿ ￿ ￿ˆ ￿ θ, e = ￿θ − θ￿, este error no es conocido porque depende de la muestra elegida; sin embargo, si conocemos la distribución del estimador podemos calcular el error absoluto máximo que podemos cometer con una cierta probabilidad p, puesto que, fijado un cierto nivel de confianza pk , podemos determinar el número k tal que: ￿ ￿￿ ￿ ￿ˆ ￿ P ￿θ − θ￿ ≤ kσθ = pk ˆ

Entonces con una probabilidad pk , el error de muestreo no excederá de kσθ . De este modo, podemos estimar el error absoluto máximo, con ˆ una probabilidad pk , a partir de la varianza estimada; desglosando para cada parámetro y cada tipo de selección se tiene:

150 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS

1. Error absoluto máximo de muestreo para estimar la media i Muestreo con reposición: ˆ S e = k√ n ii Muestreo sin reposición: ￿ ˆ n S e=k 1− √ N n

2. Error absoluto máximo de muestreo para estimar el total i Muestreo con reposición: ˆ S e = kN √ n ii Muestreo sin reposición: ￿ ˆ n S e = kN 1 − √ N n

3. Error absoluto máximo de muestreo para estimar la proporción i Muestreo con reposición: ￿ pq ˆˆ e=k n−1 ii Muestreo sin reposición: ￿￿ e=k n ￿ pq ˆˆ N n−1

1−

4. Error absoluto máximo de muestreo para estimar el total de clase i Muestreo con reposición: ￿ pq ˆˆ e = kN n−1 ii Muestreo sin reposición: ￿￿ e = kN n ￿ pq ˆˆ 1− N n−1

El error máximo de muestreo y el tamaño muestral varían en sentido inverso.

18.5. TAMAñO DE LA MUESTRA Y ERROR DE MUESTREO

151

Estas expresiones muestran cómo el error de muestreo es una función del tamaño de la muestra con lo cual, fijado el tamaño muestral, podemos determinar aquél valor por debajo del cual se encontrará el error máximo con un nivel de confianza pk . Este es el caso en que se realiza una encuesta muestral con un presupuesto dado, por lo que el número de entrevistas no puede exceder de uno determinado y queremos conocer cuál será el error absoluto máximo que podemos cometer. Sin embargo, el problema podría ser el inverso: si estamos dispuestos a tolerar un determinado error máximo e, ¿cuál debe ser el tamaño mínimo de la muestra que nos garantice, con una probabilidad pk , que el error de muestreo no sea superior a e?. En este caso, como suponemos que la muestra aún no se ha tomado, no podemos basarnos en las ecuaciones anteriores puesto que la cuasivarianza muestral resultará desconocida. No obstante, si conociésemos la varianza poblacional σ 2 , entonces podríamos calcular la varianza del estimador y a partir de ella el tamaño de muestra. Así los tamaños mínimos para los diferentes estimadores y tipos de muestreo, en función del error máximo, serían: 1. Tamaño muestral para estimar la media i Muestreo con reposición: La varianza de la media viene dada por: ￿ ￿ σ2 ˆ V ar x = ¯ n σ entonces e = k √n , y por tanto: n = k2 σ2 e2

i Muestreo sin reposición: La varianza del estimador es: ￿ ￿ ￿ ￿ N − n σ2 ˆ = V ar x ¯ N −1 n de donde sustituyendo se obtiene: n= N k2σ2 e2 (N − 1) + k 2 σ 2

2. Tamaño muestral para estimar el total i Muestreo con reposición: V ar (¯) = N 2 x σ2 n

152 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS

con lo cual sustituyendo se obtiene: n = k2N 2 σ2 e2

i Muestreo sin reposición: La varianza estimada viene dada por: ￿ ￿ N − n σ2 2 V ar (¯) = N x N −1 n entonces: n= k2N 3σ2 e2 (N − 1) + k 2 N 2 σ 2

3. Tamaño muestral para estimar la proporción i Muestreo con reposición: pq V ar (ˆ) = p n por tanto: pq n = k2 2 e i Muestreo sin reposición: ￿ ￿ N − n pq V ar (ˆ) = p N −1 n entonces: n= k 2 N pq e2 (N − 1) + k 2 pq

4. Tamaño muestral para estimar el total de clase i Muestreo con reposición: ￿ ￿ pq ˆ V ar A = N 2 n por tanto: pq n = k2N 2 2 e i Muestreo sin reposición: ￿ ￿ ￿ ￿ ˆ = N 2 N − n pq V ar A N −1 n entonces: n= k 2 N 3 pq e2 (N − 1) + k 2 N 2 pq

18.6. ERRORES AJENOS AL MUESTREO

153

18.6.

Errores ajenos al muestreo

En un principio se puede pensar que son más fiables los resultados obtenidos a través de una encuesta censal que los que se pueden obtener de una encuesta muestral, puesto que en las primeras no existen errores de muestreo. Sin embargo, como se señaló con anterioridad, en la elaboración de encuestas intervienen una serie de instrumentos, algunos de los cuales presentan ciertos sesgos o son fuente de determinados tipos de error ajenos al muestreo y que ponen de manifiesto que el censo no siempre es preferible (en cuanto a bondad de los resultados se refiere) a una encuesta muestral. Nos proponemos en esta sección enumerar algunos de estos errores y reseñar sus características más importantes. El cuestionario es el instrumento más importante que se utiliza en la elaboración de una encuesta, y por tanto una de las principales fuentes de error. Los errores que se deben al cuestionario son contrastados mediante la realización de una encuesta piloto. Este tipo de errores dependerá de cada aplicación concreta; no obstante, algunas características generales que deben tenerse en cuenta y que hacen disminuir estos errores son: redacción y presentación del cuestionario, según el colectivo al que vaya dirigido; planificación de la época del año, horas del día, etc. en función de la población a encuestar. ⇒ El listado de unidades: generalmente el listado será inexacto. Se producirán omisiones y duplicaciones de unidades elementales, o bien aparecerán unidades extrañas al colectivo. Las duplicaciones y las unidades extrañas son fáciles de detectar en los procesos de depuración, no así las omisiones que son evaluables en las fases de inspección y supervisión. ⇒ Uso inadecuado del listado: esto nos conduce normalmente a cuatro tipos de errores: confusion de unidades, confusión de la población, información inexacta sobre unidades que correctamente figuran en el listado e hipótesis errónea acerca de la estructura de la población. ⇒ El entrevistado: es el socio anónimo de todo sistema estadístico. Generalmente se encuentra influenciado por su base intelectual, emotiva y social. • Su formación intelectual puede llevarle a menospreciar algunas preguntas: bien porque las considere irrelevantes o bien por todo lo contrario, que le resulten inasequibles. Esto conlleva una serie de errores que se tratan de corregir en la depuración de los datos.

154 18. DISEñO DE ENCUESTAS. MUESTREO EN POBLACIONES FINITAS

En muchas encuestas se utiliza la longitud de una semana.

• Su base emotiva. el entrevistado mantiene una cierta reputación, lo que da lugar a una serie de errores llamados de ’prestigio’; estos errores son difíciles de detectar, pues surgen caprichosamente y no existe una modelización de los mismos. • Su condición social, geográfica, profesional, etc., condiciona también las respuestas del entrevistado; esto hace que surjan errores del tipo de redondeos, comparaciones relativas, etc., que deben ser considerados. ⇒ Errores de memoria: se denomina sesgo de memoria a los errores que aparecen en los datos como resultados de olvidos de memoria. Se sabe que los errores decaen de forma gradual en el tiempo y no todos los sucesos se olvidan de igual forma. Estos errores guardan estrecha relación con la elección del período de referencia. Período de referencia es el período de tiempo a que se refieren los datos recogidos. En relación con el período de referencia debemos distinguir: su longitud y su localización en el tiempo. Como se deduce de lo señalado en el punto anterior, cuanto mayor sea el período de referencia, más importantes son los errores de memoria; por eso, la longitud del período de referencia debe considerarse como un factor importante en la calidad de los datos. Por lo que se refiere a su localización en el tiempo, también los errores de memoria disminuyen cuanto más próximo esté el período de referencia al momento actual. Sin embargo, la mayoría de las veces no es posible establecer períodos tan cortos ni tan próximos como se quiera, puesto que algunos acontecimientos ocurren en ciclos más o menos regulares, y te tales casos el período debe incluir esos ciclos. Otra característica a tener en cuenta para fijar el período de referencia es el denominado efecto de extremos. La mayor parte de los errores de memoria están relacionados con los extremos de este período, tendiendo a confundir los acaecimientos anteriores a los extremos con los posteriores a los mismos. La transferencia de algunos sucesos de dentro a fuera (o viceversa) del período de referencia cuando están situados al rededor de los extremos tiene una influencia considerable en este efecto. Un período de referencia se dice abierto si sus dos puntos extremos están situados en el pasado y el efecto de extremos puede presentarse en ambos límites. Por el contrario, si sus puntos de separación se distinguen claramente en la memoria y no dan lugar a confusiones en cuanto a la localización de sucesos, el período de

18.6. ERRORES AJENOS AL MUESTREO

155

referencia se denomina cerrado. El período de referencia se llama semiabierto o semicerrado cuando uno de sus extremos es abierto y el otro cerrado. Los períodos de referencia cerrados son superiores desde el unto de vista de la exactitud, por lo que sería conveniente que sus extremos siempre fueran cerrados; no obstante, en la práctica, tal deseo no siempre es posible. Lo más habitual es cerrar el extremo inferior mediante algún suceso raro o importante y mantener abierto el extremos superior, que normalmente alcanza hasta el momento de la entrevista. ⇒ No sabe, no contesta: Este es otro tipo de errores que introducen sesgos importantes. La disminución de estos sesgos es el principal motivo por el cual se emplean entrevistadores o enumeradores; otras ventajas de la entrevista personal son las de uniformar las interpretaciones y la de asesorar al entrevistado. ⇒ Sesgo del entrevistador: Sin embargo, los entrevistadores se convierten en un nueva fuente de errores (pueden influir más o menos indirectamente sobre el entrevistado incluso hasta el extremos de que éste modifique su respuesta, como prueban algunos estudios en el que el porcentaje de alteración es muy alto), a los que se les denomina sesgo del entrevistador . Este tipo de error, que aumenta con el número de entrevistas, constituye una de las justificaciones de nuestra afirmación inicial de que no se puede asegurar que un censo sea más fiable que una encuesta muestral. La enumeración de causas de error que hemos desarrollado no es completa, pues podrían citarse otras como el problema de las masas o el efecto de la agregación, sin embargo, nuestro objetivo no es hacer un análisis exhaustivo de estas fuentes, sino señalar que existe una variada composición de errores, unos involuntarios y otros premeditados, que confluyen en un error total que es ajeno al muestreo y aparecen en todo tipo de encuestas. Bibliografía

Sucesos que limitan o cierran un extremo: comienzo de año, de un curso académico, un cambio de domicilio, etc.

Bibliografía
[1] Alba, U. Nieto d.: Introducción a la Estadística. Madrid : Ed. Aguilar, 1975 [2] Arnaiz Vellando, G.: Introducción a la Estadística Teórica. Valladolid : Ed. Lex-Nova, 1978 [3] Azorín, F.: Curso de Muestreo y Aplicaciones. Madrid : Ed. Aguilar, 1972 [4] Calot, G.: Curso de Estadística Descriptiva. Madrid : Paraninfo, 1974 [5] Cochran, W.G.: Técnicas de Muestreo. México : Ed.CECSA, 1980 [6] Cramer, H.: Teoría de Probabilidades y Aplicaciones. Madrid : Ed. Aguilar, 1977 [7] Dixon, W.J. y F.J. M.: Introducción al Análisis Estadístico. México : Ed. Paraninfo, 1965 [8] Downie, N.M. y R.W. H.: Métodos Estadísticos Aplicados. Madrid : Ed. del Castillo, 1971 [9] E. García España, Sanchez-Crespo J.: Estadística Descriptiva. Madrid : Ed. INE, 1961 [10] García Barbancho, A.: Estadística Elemental Moderna. Barcelona : Ed. Ariel, 1973 [11] Guenther, W.C.: Introducción a la Inferencia Estadística. Madrid : Ed. del Castillo, 1968 [12] Gutierrez Cabría, S.: Bioestadística. Madrid : Ed. Tebar Flores, 1978 [13] Hoel, P.: Introducción a la Estadística Matemática. Barcelona : Ed. Ariel, 1976 [14] Hoel, P.: Estadística Elemental. México : Ed. Continental, 1979 [15] Kreyszig, E.: Introducción a la Estadística Matemática. Principios y Métodos. México : Ed. Limusa, 1983 [16] Lopez Cachero, M.: Fundamentos y Métodos de Estadística. Madrid : Ed. Pirámide, 1978 [17] Martín-Guzman, M.P. y F.J. Martín P.: Curso Básico de Estadística Económica. Madrid : Ed. AC, 1985 [18] Meyer, P.: Probabilidades y Aplicaciones Estadísticas. México : Ed. Fondo Educativo Interamericano, 1973 [19] Mills, R.L.: Estadística para Economía y Administración. Bogotá : Ed. Mc. Graw-Hill, 1980 [20] Mood, A.M. y F.A. G.: Introducción a la Teoría de la Estadística. Madrid : Ed. Aguilar, 1978 [21] Pulido San Román, A.: Estadística y Técnicas de Investigación Social. Madrid : Ed. Pirámide, 1976 [22] Rios, S.: Métodos Estadísticos. Madrid : Ed. del Castillo, 1975 [23] Sanchez-Crespo, J.L.: Curso Intensivo de Muestreo en Poblaciones Finitas. Madrid : Ed. INE, 1980
157

158

Bibliografía

[24] Vizmanos, J.R. y R. A.: Curso y Ejercicios de Bioestadística. Madrid, 1976

Índice alfabético

A acuracidad, 138 afijación, 142 de mínima varianza, 143 proporcional, 143 uniforme, 143 afijación óptima, 143 ajuste exponencial, 43 hiperbólico, 43 lineal, 42 logístico, 43 parabólico, 43 potencial, 42 alisados, 61 amplitud del intervalo, 14 análisis longitudinal, 51 transversal, 51 apuntamiento, 33 asimetría, 32 negativa o a la izquierda, 32 positiva o a la derecha, 32 atributo, 12 B binomial, variable o modelo, 81 C cálculo de probabilidades, 69 caracteres, 12 casos favorables, 68 posibles, 68 centil, 25 cociente de localización zonal, 57 coeficiente
159

de asimetría de Pearson, 33 γ1 de Fisher, 33 γ2 de Fisher, 33 coeficiente de correlación lineal, 40, 94 determinación, 46 diversificación, 57 especialización de una zona, 57 localización zonal, 57 regresión, 48 variación de Pearson, 29 componente cíclica, 62 estacional, 62 extraestacional, 62 tendencia, 60 condición de independencia, 39, 70, 93 confianza un intervalo, 120 conglomerados, 140 covarianza, 39, 93 cuantil, 24 cuartil, 25 cuasi-varianza, 117, 145 cuestionario, 139 curtosis, 33 curva de concentración, 34 D decil, 25 dependencia estadística, 39 funcional, 38 desestacionalización, 62 desigualdad de Chebyshev, 97 desviación absoluta media, 28 respecto a

160

Índice alfabético

la media, 28 la mediana, 28 la moda, 28 desviación estándar, 28 desviación típica, 28 Diagrama de barras, 17 escalonado, 17 rectangular, 16 sectorial, 15 distribución agrupada, 14 bidimensional, 36 binomial, 81 χ2 de Pearson, 107 condicionada, 92 de frecuencias, 14 de Gauss, 84 de Poisson, 83 de probabilidad, 81 marginal, 37, 91 normal, 31, 84 simétrica, 32 t de Student, 108 distribuciones no agrupadas, 14 E efecto de extremos, 154 elementos, 12 encuesta censal, 138 muestral, 138 entrevistado, 153 error cuadrático medio, 117 de muestreo, 138 debido al muestreo, 138 tipo I, 128 tipo II, 128 errores de encuesta memoria, 154 prestigio, 154 espacio muestral, 68 esperanza matemática, 77 Estadística Descriptiva, 11 Estadística Inductiva, 11 estadístico, 106 estereograma, 36 estimación

por intervalos, 115 puntual, 115 estimación., 106 estimador centrado, 116 consistente, 118 eficiente, 118 insesgado, 116 estimadores, 107 estimadores analógicos, 107 estratificación, 140 estratos, 140 experimento aleatorio, 68 extremos del intervalo, 14 inferior, 14 superior, 14 F frecuencia absoluta, 12 absoluta acumulada, 13 marginal, 37 relativa, 13 relativa acumulada, 13 función de cuantía, 74 de densidad, 75 de densidad conjunta, 90 de distribución, 76 de distribución bidimensional, 90 de probabilidad, 74 de verosimilitud, 119 G grado de creencia, 68 grados de libertad, 107 H hipótesis aditiva, 60 alternativa, 127 compuestas, 127 multiplicativa, 60 nula, 127 simples, 127 Histograma, 18 I indice complejo, 51

Índice alfabético

161

de Bradstreet-Dûtot, 53 de Fisher, 55 de Laspeyres, 54 de Paasche, 55 de Sauerbeck, 53 simple, 51 indice de concentración Gini, 34 Lorenz, 34 indice sintético, 52 no ponderados, 52 ponderaciones constantes, 54 ponderaciones variables, 54 ponderados, 52 indices de variación estacional, 62 individuos, 12 Inferencia estadística, 11 L la distribución condicionada, 37 Ley de los grandes números, 97 límites de confianza, 121 línea de equidistribución, 34 línea de regresión, 47 M marca de clase, 14 marco, 140 media aritmética, 21 armónica, 23 condicionada, 38 geométrica, 23 marginal, 38 muestral, 145 poblacional, 144 mediana, 22 método de la máxima verosimilitud, 118 de los momentos, 120 método de analogía, 107 método de los mínimos cuadrados, 42 método de muestreo, 103, 142 no probabilísticos, 142 probabilístico, 142 métodos no paramétricos, 115 paramétricos, 115

mínima varianza, 117 moda, 22 modalidades, 12 momento centrado, 30, 79 no centrado, 79 no centrados, 30 momento bidimensional centrado, 40 no centrado, 40 momentos bidimensionales centrado, 93 no centrado, 93 muestra, 12 muestreo, 142 aleatorio con reposición, 142 aleatorio sin reposición, 142 bietápico, 143 estratificado, 142 opinático, 143 polietápico, 143 por conglomerados, 143 por cuotas, 144 sistemático, 143 muestreo aleatorio con reposición, 104 multimodales, 22 N nivel de confianza, 120 de significación, 128 nube de puntos, 36 número índice, 51 P partición, 70 participación de la variable Xi , 56 período actual, 51 base, 51 Pictogramas, 16 población, 11 Polígono de frecuencias, 19 potencia del test, 128 precisión, 138 probabilidad, 69 clásica o de Laplace, 68 condicionada, 70

162

Índice alfabético

conjunta, 89 fecuencialista, 68 inducida, 74 objetiva, 68 subjetiva, 68 probabilidades a posteriori o finales, 71 iniciales o apriori, 70 proporción muestral, 145 poblacional, 144 R recorrido, 27 recorrido intercuartílico, 27 regresión mínimo cuadrática, 47 relación causal, 41 repercusión de la variable Xi , 56 porcentual, 56 S serie cronológica, 59 histórica, 59 temporal, 59 tipo flujo, 59 tipo nivel, 59 sesgo, 116, 138 sesgo del entrevistador, 155 sistema completo de sucesos, 70 situación actual, 51 base, 51 subpoblación, 12 suceso, 68 complementario, 69 diferencia, 69 elemental, 68 intersección, 69 seguro, 69 unión, 69 sucesos incompatibles, 69 sucesos disjuntos, 69 T t de Student, 108 tabla

de contingencia, 36 de correlación, 36 de números aleatorios, 105 estadística, 14 tabulación, 14 tamaño muestral, 12 poblacional, 12 tendencia, 60 teorema central del límite, 99 de Bayes, 71 de la probabilidad total, 71 total muestral, 145 poblacional, 144 total de clase muestral, 145 poblacional, 144 U unidades elementales, 138 primarias, 138 V valor esperado, 77 modal, 22 valores, 12 observados, 138 verdaderos, 138 variable absolutamente continua, 75 aleatoria, 73 aleatoria bidimensional, 89 aleatoria discreta, 74 estadística continua, 12 estadística discreta, 12 independiente, 39 tipificada, 29 variable estadística bidimensional, 35 variables estadísticas, 12 variación del índice general, 56 variaciones cíclicas, 60 estacionales, 60 varianza, 27, 78

Índice alfabético

163

condicionada, 38 explicada, 45 marginal, 38 residual, 46 Z zona de aceptación, 128 de rechazo, 128

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->