Está en la página 1de 247

Inferencia Estadı́stica

J. Humberto Mayorga A.
Profesor Asociado
Departamento de Estadı́stica - Facultad de Ciencias

Universidad Nacional de Colombia


2
Índice General

Prólogo iii

Introducción v

1 DISTRIBUCIONES MUESTRALES 1
1.1 La Inferencia estadı́stica, un soporte epistemológico . . . . . . . . 1
1.2 Preliminares en la Inferencia estadı́stica . . . . . . . . . . . . . . 4
1.3 Preliminares en convergencia de variables aleatorias . . . . . . . 9
1.4 Caracterı́sticas generales de algunas estadı́sticas . . . . . . . . . . 12
1.5 Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.1 Distribución de las estadı́sticas de orden . . . . . . . . . . 19
1.5.2 Distribución del rango, semirango y mediana muestrales . 20
1.5.3 Distribución de la función de distribución empı́rica . . . . 21
1.6 Momentos de estadı́sticas de orden . . . . . . . . . . . . . . . . . 23
1.7 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 25
1.8 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 42

2 ESTIMACIÓN PUNTUAL DE PARÁMETROS 49


2.1 Métodos clásicos para construir estimadores . . . . . . . . . . . . 51
2.1.1 El método de máxima verosimilitud . . . . . . . . . . . . 51
2.1.2 El método de los momentos . . . . . . . . . . . . . . . . . 61
2.1.3 El método por analogı́a . . . . . . . . . . . . . . . . . . . 64
2.1.4 Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . 65
2.2 Criterios para examinar estimadores . . . . . . . . . . . . . . . . 69
2.2.1 Concentración, un requisito de precisión . . . . . . . . . . 69
2.2.2 Consistencia, un requisito ligado al tamaño de la muestra 73
2.2.3 Suficiencia, un requisito de retención de información . . . 75
2.2.4 Varianza mı́nima, un requisito de máxima precisión . . . 83
2.2.5 Completez, un requisito de la distribución muestral . . . . 90
2.2.6 Robustez, un requisito de estabilidad . . . . . . . . . . . . 96
2.3 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 98
2.4 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 104

i
ii ÍNDICE GENERAL

3 ESTIMACIÓN POR INTERVALO DE PARÁMETROS 115


3.1 Conceptos preliminares . . . . . . . . . . . . . . . . . . . . . . . . 116
3.2 El método de la variable pivote . . . . . . . . . . . . . . . . . . . 117
3.3 Estimación de promedios, bajo Normalidad . . . . . . . . . . . . 124
3.3.1 Intervalos confidenciales para el promedio de una población124
3.3.2 Estimación de la proporción poblacional . . . . . . . . . . 127
3.3.3 Intervalo confidencial para la diferencia de promedios basa-
do una muestra pareada . . . . . . . . . . . . . . . . . . . 128
3.3.4 Intervalos confidenciales para la diferencia de promedios
en poblaciones independientes . . . . . . . . . . . . . . . . 129
3.4 Estimación de varianzas, bajo Normalidad . . . . . . . . . . . . . 131
3.4.1 Intervalos confidenciales para la varianza de una población 131
3.4.2 Intervalos confidenciales para el cociente de varianzas de
dos poblaciones independientes . . . . . . . . . . . . . . . 134
3.5 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 137
3.6 Tamaño de la muestra simple bajo Normalidad . . . . . . . . . . 139
3.7 Estimación Bayesiana por intervalo . . . . . . . . . . . . . . . . . 140
3.8 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 142
3.9 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 144

4 JUZGAMIENTO DE HIPÓTESIS 147


4.1 Elementos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 148
4.2 Tests más potentes . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.3 Juzgamiento de hipótesis sobre promedios, bajo Normalidad . . . 172
4.3.1 Juzgamiento de la hipótesis nula H0 : μ = μ0 . . . . . . . 172
4.3.2 Juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0 . . . . 180
4.4 Juzgamiento de hipótesis sobre varianzas, bajo Normalidad . . . 189
4.4.1 Juzgamiento de la hipótesis nula H0 : σ 2 = σ02 . . . . . . . 189
4.4.2 Juzgamiento de homoscedasticidad . . . . . . . . . . . . . 191
4.5 Juzgamiento de proporciones . . . . . . . . . . . . . . . . . . . . 193
4.6 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 196
4.7 Tamaño de la muestra . . . . . . . . . . . . . . . . . . . . . . . . 198
4.8 Juzgamiento secuencial . . . . . . . . . . . . . . . . . . . . . . . . 200
4.9 Juzgamiento del ajuste . . . . . . . . . . . . . . . . . . . . . . . . 208
4.9.1 Juzgamiento del ajuste por el método de Pearson . . . . . 209
4.9.2 Juzgamiento del ajuste por el método de Kolmogorov-
Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
4.10 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 218
4.11 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 223
Prólogo

La escritura de este libro siempre estuvo animada por el deseo obstinado de


secundar el trabajo que realiza el estudiante tanto en el salón de clase como
fuera de él; pues entiendo que en definitiva es el estudiante quien aprehende los
conceptos como fruto de sus quehaceres académicos, conceptos inducidos más
por sus dudas, por sus dificultades y por algunas contradicciones con algunos de
sus preconceptos, que por alguna exposición frente al tablero. En mi criterio, el
profesor como acompañante en la formación profesional, se convierte solamente
en orientador, animador y crı́tico.
Con ese espı́ritu quise que este libro se constituyese en una juiciosa pre-
paración de clase de la asignatura Inferencia Estadı́stica, preparación que ha
acopiado las memorias de cada una de las oportunidades en las cuales fui el
el encargado del curso a través de mis años como docente en la Universidad
Nacional de Colombia. De ese acopio es profuso lo desechado y lo corregido,
pues las preguntas de los estudiantes confundidos, las preguntas inteligentes y las
respuestas sobresalientes como las equivocadas en las evaluaciones, generalmente
sucitaron la reflexión sobre las formas y contenidos de los guiones de la clase.
No pretendo publicar un texto mas, pues los hay de una calidad inmejorable,
algunos clásicos cuya consulta es obligada, otros de reciente edición que han in-
corporado nuevos desarrollos conceptuales. Pretende el texto apoyar el trabajo
académico que se realiza en el curso, especialmente con el propósito de opti-
mizar el tiempo y la calidad de la exposición de los temas, dando paso a la uti-
lización del tablero acompañado de la tecnologı́a audiovisual como posibilidad
para profundizar algunos de los temas y como medio para tratar las pregun-
tas e inquietudes estudiantiles y no como instrumento transcriptor de frases y
gráficas.
En este libro expreso mis apreciaciones personales semánticas y conceptuales
promovidas por la concepción que tengo sobre la Estadı́stica y particularmente
sobre la Inferencia estadı́stica, concepción que he madurado y he hecho propia,
a partir de las reflexiones con profesores del Departamento de Estadı́stica, a
partir de discusiones informales y dentro de eventos académicos. Su contenido
y organización responden a la forma tradicional como he realizado el curso, a
las limitaciones de un semestre académico para su desarrollo y a los requisitos
curriculares exigidos a los estudiantes que lo cursan.
Fue la circunstancia de mi año sabático, disfrutado durante el año 2002, la
que hizo posible la redacción y digitación de este texto, pues fueron múltiples

iii
iv PRÓLOGO

las ocasiones fallidas de organizar en un libro el material de la clase, debido a


las ocupaciones derivadas de mis compromisos académicos, administrativos y de
servicios de asesorı́a estadı́stica que la Universidad me encargó llevar a cabo.
Finalmente, creó que debo agradecer tanto a mis alumnos pues ellos son el
motivo para organizar las ideas que presento entorno a la Inferencia estadı́stica,
como a la Universidad Nacional de Colombia que aceptó como plan de activi-
dades de mi año sabático, la elaboración de este texto.
Introducción

Este texto ha sido concebido para ser fundamentalmente un texto guı́a en


el desarrollo de la asignatura Inferencia Estadı́stica, que cursan tanto los es-
tudiantes del pregrado en Estadı́stica como los estudiantes de la Carrera de
Matemáticas. Puede apoyar igualmente algunos temas de la asignatura Es-
tadı́stica Matemática de la Maestrı́a en Estadı́stica. El requisito natural e in-
mediato para abordar los temas de cada uno de los capı́tulos del libro, es un
curso de Probabilidad, y por supuesto los cursos de Cálculo. Consta de cua-
tro capı́tulos que pueden desarrollarse durante un semestre académico con seis
horas semanales de clase tradicional.
He adaptado traducciones de uso corriente en los textos de Estadı́stica a
formas y términos con un mejor manejo del idioma y que semánticamente co-
rrespondan con mayor fidelidad al concepto que denominan. Igualmente hago
precisión sobre algunas expresiones usuales para mayor claridad conceptual.
Cada capı́tulo está estructurado en tres partes: exposición de los temas,
demostraciones de los teoremas y la relación de los ejercicios correspondientes.
Esto no significa que el manejo del texto deba llevarse en el orden mencionado.
He querido organizarlo ası́, con el objeto de que la presentación de los temas
exhiba una forma continua y que las demostraciones y los ejercicios tengan su
sitio especial propio. Los ejercicios no están ordenados ni por su complejidad,
ni por el tema tratado, para no encasillarlos. El estudiante se acerca a un
ejercicio con información y trabajo previos, y es con su organización de ideas
y búsqueda de caminos que debe evaluar si con los elementos estudiados hasta
un cierto punto le es posible abordar el ejercicio particular; sin embargo, el
profesor puede sugerir la realización de alguno o algunos ejercicios cuando haya
culminado un tema o parte de él.
El primer capı́tulo como fundamento del texto, ubica sintéticamente a la
Inferencia Estadı́stica dentro del problema filosófico secular de la inducción.
Retoma el tema de la convergencia de sucesiones de variables aleatorias, y ex-
pone las ideas preliminares de la Inferencia Estadı́stica. El segundo capı́tulo
presenta los métodos corrientes de construcción de estimadores y los criterios
para examinar las estadı́sticas en su calidad de estimadores.
En el tercer capı́tulo se presenta el método de la variable pivote para cons-
truir intervalos confidenciales y se hace algún énfasis en los intervalos confiden-
ciales bajo Normalidad. En el cuarto capı́tulo se adopta la expresión juzgamien-
to de hipótesis a cambio de prueba, docimasia o cotejo, porque esta acepción

v
vi INTRODUCCIÓN

está más cerca del sentido de la toma de decisiones estadı́sticas e igualmente se


da un espacio importante en el juzgamiento de hipótesis bajo Normalidad.
Capı́tulo 1

DISTRIBUCIONES
MUESTRALES
“El conocimiento que tenemos del mundo está basado en la elaboración de un
modelo de la realidad, modelo que puede cotejarse con la experiencia tan sólo
de manera parcial y ocasionalmente... Este modelo se construye teniendo en
cuenta la utilización que hacemos del mismo...”
J. Bruner, “On cognitive growth”

Antes de entrar en materia, es preciso destinar unos pocos párrafos para


introducir un bosquejo del contexto en el cual la Inferencia estadı́stica puede
ubicarse, más como exposición de ideas generales que el pretender una disquisi-
ción filosófica al respecto. Ese contexto está contenido dentro de un problema
más general de carácter epistemológico, que el lector puede profundizar con las
copiosas publicaciones sobre el tema. Posteriormente, por tratarse de uno de
los fundamentos sobre el cual la Inferencia Estadı́sitica erige algunos de sus
conceptos, se incluye la sección 1.3 a manera de un extracto de la convergen-
cia de sucesiones de variables aleatorias, tema integrante de un curso previo de
Probabilidad, pero que se retoma por su carácter y por su utilidad próxima.

1.1 La Inferencia estadı́stica, un soporte episte-


mológico
La inferencia inductiva, procedimiento que utiliza la lógica como una forma
de generalizar a partir de hechos particulares o a partir de la observación de
un número finito de casos, es uno de los temas que ha ocupado a filósofos y
cientı́ficos de todos los tiempos, desde la época de Aristóteles, tres siglos antes
de Cristo, hasta la actualidad.

1
2 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

Varios filósofos antiguos formados en el empirismo gnoseológico, convencidos


de que la observación era la única fuente segura de conocimiento, fueron los
primeros en proponer la inducción o inferencia inductiva como método lógico.
Tempranamente la inducción se convierte en un tema de mucha controversia que
aún se mantiene; si para Aristóteles, quien planteó inicialmente el procedimiento
inductivo, la Ciencia es “conocimiento demostrativo”, por el contrario para
Sexto Empı́rico, uno de los filósofos representantes del Escepticismo, la Ciencia
es “comprensión segura, cierta e inmutable fundada en la razón”. Ası́, mientras
Sexto Empı́rico rechaza la validez de la inducción, Filodemo de Gadara, filósofo
seguidor del Epicureı́smo, defiende la inducción como método pertinente.
Y la controversia, llamada el problema de la inducción o también conocida
como el “problema de Hume”, reside precisamente en que mientras la inferencia
deductiva avala la transferencia de la verdad de las premisas a la conclusión,
es decir, a partir de premisas verdaderas todas deducción es cierta, a costa de
no incorporar nada al contenido de las premisas, la inducción por su parte que
va más allá de las premisas, por su carácter amplificador, puede dar lugar a
conclusiones falsas; en pocas palabras la controversia se centra en la validez
que puedan tener los razonamientos inductivos, puesto que las conclusiones por
medio de la inducción no siempre serán verdaderas.
Algunos pensadores medievales también se preocuparon de la inducción. El
inglés Robert Grosseteste al utilizar para su trabajo cientı́fico los métodos apli-
cados por sus discı́pulos de Oxford en Óptica y Astronomı́a, reabre en la Edad
Media el tema de la inducción; si bien varios filósofos de la época orientaron
sus reflexiones hacia los métodos inductivos, los ensayos y trabajos de Francis
Bacon inspirados en la reorganización de las ciencias naturales, constituyeron el
apogeo del método inductivo.
No obstante, para Hume las leyes cientı́ficas no tienen carácter universal, es
decir son válidas únicamente cuando la experiencia ha mostrado su certidumbre
y tampoco tiene la función de la previsibilidad. Popper, filósofo de la Ciencia,
conocido por su teorı́a del método cientı́fico y por su crı́tica al determinismo
histórico, en el mismo sentido de Hume, afirma que no puede existir ningún
razonamiento válido a partir de enunciados singulares a leyes universales o a
teorı́as cientı́ficas. Mas recientemente, Bertrand Russell mantiene la posición de
Hume de la invalidez de la inducción, pero considera que ella es el camino para
incrementar la probabilidad, como grado racional de creencia, de las generaliza-
ciones.
La conocida Ley débil de los grandes números incluida en la cuarta parte
del trabajo más sobresaliente de Jacob Bernoulli, Ars Conjectandi, publicado
después de su muerte en el año 1713, y el también conocido teorema de Bayes
publicado cincuenta años más tarde, trajeron nuevos elementos en la discusión al
constituirse en argumentos matemáticos que sustentan la posibilidad de inferir
probabilidades desconocidas a partir de frecuencias relativas. Sin embargo para
Popper, sustituir la exigencia de verdad por la validez probabilı́stica para las
inferencias inductivas no lo hace un procedimiento legı́timo.
Durante las primeras décadas del siglo pasado, a raı́z de los importantes
avances de la Ciencia ocurridos a finales del siglo XIX y a principios del siglo
1.1. LA INFERENCIA ESTADÍSTICA, UN SOPORTE EPISTEMOLÓGICO 3

XX, avances que no podı́an pasar desapercibidos para los pensadores, obligaron
a los filósofos a revisar muchas de las ideas de los clásicos y es ası́ como un grupo
de hombres de ciencia, matemáticos y filósofos, se organizan en 1922 en torno
al fı́sico Moritz Schlick, profesor de filosofı́a de la ciencia de la Universidad de
Viena, convirtiéndose en un movimiento filosófico internacional, principal pro-
motor del positivismo lógico, (también llamado neopositivismo, neoempirismo
o empirismo lógico), movimiento conocido como Cı́rculo de Viena, conformado
entre otros, además de Schlick, por Hahn, Frank, Neurath, Kraft, Feigl, Wais-
mann, Gödel, y Carnap; Einstein, Russell y Wittgenstein eran considerados
como miembros honorı́ficos y Ramsey y Reinchenbach como miembros simpati-
zantes del mismo.
Este movimiento filosófico se dedicó a muchos y variados temas de la Filosofı́a
de la Ciencia, y por supuesto al problema de la inducción. En sı́ntesis se puede
afirmar que el hilo conductor de las ideas del Cı́rculo de Viena fue la defensa
de una visión cientı́fica del mundo a través de una ciencia unificada ligado al
empleo del análisis lógico en el sentido de Russell.
Pero respecto al tema de la inducción, el Cı́rculo no cerró la discusión; concre-
tamente para Popper y sus seguidores, la escuela del refutacionismo, el método
cientı́fico no utiliza razonamientos inductivos, sino razonamientos hipotético-
deductivos, ası́ se acopien datos y hechos particulares dentro del procedimiento
de evaluación de una hipótesis que dan paso a una conclusión de carácter general,
no existe como tal un razonamiento inductivo. Para el refutacionismo la ciencia
se concibe como una sucesión de conjeturas y refutaciones: se proponen conje-
turas para explicar los hechos, que luego serán refutadas para promover nuevas
conjeturas. En sı́ntesis, para Popper y su escuela, ninguna teorı́a cientı́fica puede
establecerse en forma concluyente.
Sin embargo, para Feyerabend y Kuhn, en otro momento de gran contro-
versia en este tema, las décadas del 60 y 70, la práctica cientı́fica no está en
correspondencia con este proceder racional ni tampoco puede lograrlo, porque
en gran medida existen supuestos relativos a la objetividad, a la verdad, al papel
de la evidencia y a la invariabilidad semántica. Para Feyerabend, no existen,
principios universables de racionalidad cientı́fica; el crecimiento del conocimien-
to es siempre especı́fico y diferente como tampoco sigue un camino de antemano
fijado.
Dentro de esta controversia, a la Inferencia estadı́stica no se le ha eximido
del problema de la inducción. Ronald Fisher, considerado por muchos el padre
de la Estadı́stica, defendió el papel inductivo que conlleva el juzgamiento de
hipótesis 1 . Sin embargo un sector de cientı́ficos y filósofos consideran que tanto
la estimación de parámetros como el juzgamiento de hipótesis tienen dirección
inductiva pero el razonamiento o inferencia que se lleva a cabo es de carácter
deductivo.
En fin, la Historia y la Filosofı́a de la Ciencia tuvieron un enorme auge a
lo largo del siglo pasado, continúan acopiando y estructurando reflexiones y
argumentos sobre la inducción, pero al no ser el propósito de esta sección tratar
1 La denominación juzgamiento de hipótesis será justificada en el capı́tulo 4.
4 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

el proceso lógico de la inducción desde el punto de vista filosófico, ni tampoco


pretender su recuento histórico, ni mucho menos asumir una posición respecto
a ella, se omiten nombres de muy destacados pensadores contemporáneos. Lo
que realmente motiva incluir los párrafos anteriores es poner de manifiesto de
manera muy concisa el hecho de que el problema de la inducción es un problema
filosófico vigente con 23 siglos de existencia al cual generaciones de filósofos y
cientı́ficos se han dedicado.
Y más allá del debate epistemológico y metafı́sico contermporáneo dentro
de la Filosofı́a de la Ciencia, es cierto que gran parte de la Ciencia actual frente
a una naturaleza entrelazada de azar concomitante con una variabilidad inher-
ente, reconoce de una u otra manera que el ensanche de su cuerpo conceptual
requiere de la participación impresindible de la Estadı́stica. Mucho antes de
la omnipresencia del computador, de los avances vertiginosos de la teorı́a y
métodos estadı́sticos de los últimos tiempos, Hempel en 1964 en su libro, As-
pectos de la explicación cientı́fica, se referı́a a los dos modelos de explicación
de tipo estadı́stico:“el modelo estadı́stico deductivo, en el que las regularidades
estadı́sticas son deducidas de otras leyes estadı́sticas más amplias, y el modelo
estadı́stico inductivo, en el que los hechos singulares se explican subsumiéndolos
bajo leyes estadı́sticas”.
En esta dirección cuando en los quehaceres cientı́ficos, tecnológicos o ad-
ministrativos se recurre a la Estadı́stica para organizar y orientar sus procesos
y métodos, como de igual manera cuando se recurre a ella para apoyar argu-
mentos y decisiones, ese recurso suele convertirse, desde uno de los puntos de
vista, en un proceso de inducción especı́ficamente en un proceso que puede ser
clasificado como de inducción amplificadora, de manera análoga a como Francis
Bacon vio en la inducción el procedimiento escencial del método experimental,
o convertirse en una serie de actividades ligadas a un procedimiento propio de
la ciencia o la tecnologı́a , en un procedimiento hipotético-deductivo, como lo
entiende la escuela propperiana. Para cualquiera de los dos puntos de vista que
se asuma, la Estadı́stica brinda un respaldo exclusivo en la inferencia.

1.2 Preliminares en la Inferencia estadı́stica


Dentro del contexto del parágrafo anterior, cabe formularse varias preguntas;
la primera de ellas: ¿Cuál es el objeto para el cual son válidos los enunciados
generales producto de la inducción, de la decisión o la estimación que realiza una
aplicación estadı́stica?. Paralelamente tiene lugar la segunda pregunta: ¿Cuáles
son las unidades que permiten obtener la información de casos particulares como
punto inicial en el citado proceso?. Y la tercera pregunta, que interroga sobre
la calidad del proceso de inferencia estadı́stica: ¿Cuáles son los principios que
rigen este proceso tan particular de inferencia?.
La primera pregunta indaga por el conjunto de todos los elementos que
en un determinado momento son del interés de un investigador, de un gestor
o de un tomador de decisiones. Elementos que son diferentes entre sı́ pero
que tienen una o varias caracterı́sticas comunes que los hacen miembros del
1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 5

conjunto en consideración. Al respecto en algunas disciplinas cientı́ficas esas


caracterı́sticas comunes son denominadas criterios de inclusión, complementados
con los criterios de exclusión, para definir concisamente la pertenencia de un
elemento al conjunto y para precisar igualmente la pérdida de la calidad de
pertenencia del elemento.
Para referirse a ese conjunto mencionado anteriormente el lenguaje corriente
de la Estadı́stica utiliza el término población; ese agregado o colección de las
unidades de interés es en últimas el objeto receptor del producto del proceso de
inducción, de la decisión o de la estimación.
La segunda pregunta parece confundirse con la primera. Si bien es cier-
to que la pregunta se refiere a esas entidades que corresponden a los hechos
particulares, a los casos singulares, a ese conjunto finito de casos, que son
examinados durante la primera etapa de la inferencia, la reunión de todas las
unidades posibles, constituye ese conjunto que se ha llamado población. Pero su
estricta determinación radica en que cada una de esas unidades será, en sentido
metafórico, un interlocutor con el investigador. Interlocutor, porque la inves-
tigación puede entenderse, de manera análoga, como un proceso comunicativo:
el investigador pregunta, la naturaleza responde. Esas unidades pueden ser de-
notadas como unidades estadı́sticas, de manera genérica para subsumir en
esa denominación, otras como unidad experimental, unidad de análisis, sujeto,
caso, entre otras.
Como en casi todas las oportunidades, de hecho no existe la posibilidad de
“dialogar”con todas y cada una de las unidades estadı́sticas, debido a impera-
tivos que lo impiden, asociados a varios aspectos. Por ejemplo, cuando el tamaño
de la población, es decir, el cardinal del conjunto que reúne a todas las unidades
estadı́sticas, es ingente; o también cuando la respuesta de la unidad implica
su desnaturalización o deterioro; igualmente cuando ese “diálogo”es oneroso, o
cuando los resultados de la investigación se requieren con apremio.
A ese subconjunto de unidades que un párrafo anterior se referı́a como el
conjunto finito de casos que son examinados durante la primera etapa del pro-
ceso de inferencia, circunscrito al subconjunto de unidades estadı́sticas elegidas
por medio de procedimientos estadı́sticos formales, por supuesto, se le designa
corrientemente como muestra.
A diferencia de las dos preguntas anteriores, cuyas respuestas son en últimas
acuerdos semánticos, la tercera es una pregunta fundamental que requiere
respuestas a partir de elaboraciones conceptuales, repuestas que se darán
gradualmente con el desarrollo de los capı́tulos objeto de este texto; pero pre-
viamente de una manera sucinta se esboza el fundamento de las respuestas.
La Estadı́stica facultada para sustentar y conducir procesos de inducción, de-
cisión y estimación muy caracterı́sticos, cuenta con la inferencia estadı́stica como
la fuente conceptual que nutre, avala y licencia la estructura y funcionamiento
de métodos y procedimientos estadı́sticos. Para el desarrollo de cada una de
sus dos componentes, relativos a la estimación de parámetros y el juzgamiento
de hipótesis, la inferencia estadı́stica tiene como punto de partida la referen-
cia o el establecimiento de modelos para representar variables observables o no
observables, modelos que pueden ser explı́citos o generales.
6 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

Semánticamente el vocablo modelo responde a varias acepciones, particu-


larmente dentro del lenguaje cientı́fico y tecnológico. Sin embargo el sentido
que la Estadı́stica le confiere al término, es el de consistir en una traducción
de un aspecto de la realidad a un lenguaje simbólico, como uno de los recursos
para representar de manera simplificada su comportamiento, que habilite pro-
cesos de generalización, que incluya sus aspectos fundamentales, que facilite su
descripción o permita la toma de decisiones.
La factibilidad de representar variables muy disı́miles asociadas con fenóme-
nos de distintos campos del saber a través de un mismo modelo de probabilidad,
permite a la Inferencia estadı́stica detenerse en el modelo mismo para conver-
tirlo en su objeto de estudio. A partir de su estructura, de las expresiones
matemáticas asociada a su naturaleza y con ellas de la presencia y papel que
desempeñan los parámetros, se construyen y evalúan posibles estimadores de es-
tos últimos, y de igual manera se derivan y evalúan procedimientos que permitan
juzgar afirmaciones sobre el modelo.
En consecuencia, los principios que avalan procesos de carácter estadı́stico,
tratados por la Inferencia estadı́stica y motivo de la tercera pregunta, consisten
en métodos y criterios relacionados tanto con la construcción de estimadores y
test como con el examen de la aptitud e idoneidad de los mismos, y que tal
como se anunció, la descripción y el desarrollo de los citados principios son en
definitiva el contenido mismo de este texto.
Definición 1.2.1. Una muestra aleatoria es una sucesión finita de
variables aleatorias independientes e idénticamente distribuidas X1 , X2 , . . . , Xn .
De manera más general una sucesión de variables aleatorias X1 , X2 , . . . , inde-
pendientes y con idéntica distribución, también se denomina muestra aleatoria.
En el caso de una sucesión finita, el valor n recibe el nombre de tamaño de la
muestra o tamaño muestral.
La definción anterior revela que en el contexto estadı́stico el término muestra
presenta dos acepciones: la de ser un subconjunto de unidades estadı́sticas elegi-
das por métodos estadı́sticos formales y la adjetivada como aleatoria expuesta
en la definición anterior, ésta referida a una sucesión de variables aleatorias. Lo
mismo le ocurre al término población: denota al conjunto completo de unidades
estadı́sticas objeto de estudio y ahora se le concibe como una variable aleatoria,
en el sentido que se expone seguidamente.
El acceso al estudio de ese conjunto de unidades estadı́sticas, se lleva a
cabo mediante el examen de las caracterı́sticas o respuestas de sus integrantes,
interpretadas como variables; el discernimiento de la esencia ya no individual
sino colectiva de las unidades es en suma el motivo de la investigación o estudio;
por ello el comportamiento de las variables se convierte entonces en un elemento
revelador de caracterı́sticas y propiedades que sustentan la descripción de la
colectividad, las explicaciones o las decisiones a que haya lugar.
El comportamiento real de una o varias variables es un comportamiento re-
flejo de la naturaleza de la población, que no siempre es posible conocer. Por ello
acudir a modelos de probabilidad para emular el comportamiento poblacional
es un recurso legı́timo que reduce carencias, permite aprovechar las virtudes
1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 7

propias del modelo y hace posible la utilización de un lenguaje universal, por


supuesto sobre la base de una escogencia juiciosa del modelo.
Entonces, un aspecto de las unidades estadı́sticas observado, medido o cuan-
tificado en una variable, (o varios aspectos utilizando un vector para disponer
las variables) se le abstrae como una variable aleatoria (o un vector aleatorio)
que tiene asociado un modelo particular. Esta variable aleatoria que representa
una variable en la población suele denominársele igualmente población.
Bajo estas consideraciones la sucesión de variables aleatorias X1 , X2 , . . . , Xn ,
de la definición anterior denominada muestra aleatoria además de ser un ele-
mento del ámbito conceptual de la Teorı́a Estadı́stica, puede vincularse con la
información especı́fica acopiada de un subconjunto de n unidades estadı́sticas
de las cuales se dispone de los valores x1 , x2 , . . . , xn , correspondientes a una
variable denotada por X. Dicho en otros términos el valor xi puede entenderse
como una realización de la correspondiente variable aleatoria Xi , i = 1, 2, . . . , n,
por eso es habitual encontrar recurrentemente la expresión “sea X1 , X2 , . . . , Xn
una muestra aleatoria de una población con función de densidad...”. El contexto
en el cual se encuentre el vocablo población, delimita la acepción en uso: un
conjunto o una variable aleatoria.
Definición 1.2.2. Se denomina Estadı́stica a una variable aleatoria
construida como una función de las variables aleatorias X1 , X2 , . . . , Xn que
conforman una muestra aleatoria, función que no depende de parámetro al-
guno constitutivo de la expresión algebraica que identifica al modelo asumido
para representar una variable en la población, ni tampoco depende de constantes
desconocidas, también llamados parámetros, que cuantifican rasgos generales en
la población cuando no se asume un modelo especı́fico.
Como el aspecto determinante en la naturaleza de una estadı́stica es su
no dependencia funcional de parámetros, se le resalta por medio del siguiente
ejemplo.
Ejemplo 1.2.1. Asumiendo el modelo Gaussiano para representar una variable
en la población, y si X1 , X2 , . . . , Xn es una muestra aleatoria de la población
ası́ modelada, son estadı́sticas entre otras
X1 + X2 + · · · + Xn
• = Xn
n
(X1 − X n )2 + (X2 − X n )2 + · · · + (Xn − X n )2
• = Sn2
n−1
• X1,n = min{X1 , X2 , . . . , Xn }
Puesto que los parámetros μ y σ son las constantes caracterı́sticas del
modelo Gaussiano, particularmente las dos siguientes variables aleatorias no
son estadı́sticas
n
n  2 (Xi − μ)2
Xi − X n i=1

i=1
σ n−1
8 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

El contenido semántico que se les da en Estadı́stica tanto al término estimar


como al término estimación, para referirse a su acción o efecto, proviene de
una de las acepciones corrientes que tiene el segundo vocablo. El significado en
mención de: aprecio o valor que se da y en que se tasa o considera algo 2 , no
sugiere un cálculo aproximado de un valor como equivocadamente se entiende,
porque no hay referentes para calificar su aproximación, ni tampoco como un
proceso adivinatorio; debe entenderse como la realización formal de un avalúo,
es decir en llevar a cabo un proceso que exige de manera imprescindible el
contar con información de ese algo del cual se quiere fijar su valor. Por lo
tanto la calidad de la estimación, depende directamente de la calidad original
y la cantidad de información que se posea. Consecuentemente una cantidad
insuficiente de información genera estimaciones no fiables, como igualmente las
genera una gran cantidad de información de calidad exigua.
A manera de sinopsis, considerando simultáneamente tanto la cantidad de
información como su calidad y utilizando el plano cartesiano para su repre-
sentación, en la siguiente figura se adjetivan distintas circunstancias en calidad
y cantidad de información que constituye el insumo en el proceso de estimación.

100%
Desechable Ideal
Cantidad

ADMISIBLE

Funesta Inadmisible

0 Calidad 100%

Figura 1.1: Diagrama de calidad y cantidad de información

La calidad de la información, de la cual este texto no se ocupa porque se pre-


tenden propósitos de otro tipo, debe asegurarse a partir del diseño, construcción
y calibración de instrumentos para el registro de la información, dentro de la
organización y ejecución de las actividades de acopio de información y durante
2 Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda edi-

ción.2001
1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 9

el proceso de almacenamiento y guarda de la información.


Definición 1.2.3. Una estadı́stica cuyas realizaciones son utilizadas para llevar
a cabo estimaciones de los parámetros de un modelo probabilı́stico se denomina
estimador y a las citadas realizaciones o valores particulares se les conoce como
estimaciones.
Definición 1.2.4. El modelo probabilı́stico que rige el comportamiento de una
estadı́stica o de un estimador se denomina distribución muestral de la
respectiva estadı́stica o del respectivo estimador.
Algunos autores se refieren a la distribución de la variable aleatoria que rep-
resenta a la población, como la distribución original de las observaciones, o
modelo original y a la distribución muestral de una estadı́stica como la distribu-
ción reducida o modelo reducido.
Definición 1.2.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con momentos oridinarios y centrales μr y μr respectivamente. Los momentos
muestrales, ordinarios y centrales de orden r, r = 1, 2, . . . , cumplen en la
muestra funciones análogas a los momentos poblacionales μr y μr , y se denotan
y definen como

1 r
n

Mr,n = X
n i=1 i
1
n
Mr,n = (Xi − X n )r
n i=1


En particular cuando r = 1, primer momento ordinario muestral, M1,n = X n,
es llamado de manera más corriente, promedio muestral o promedio de la
muestra. Se prefiere como varianza muestral en cambio del segundo mo-
mento muestral, por razones que posteriormente se justificarán, a la expresión

1 
n
(Xi − X n )2
n − 1 i=1

1.3 Preliminares en convergencia de variables


aleatorias
Para aprestar los elementos que se requieren en el tema de Inferencia estadı́stica,
es preciso abordar de una manera suscinta los tipos de convergencia de variables
aleatorias en razón a que posteriormente el crecimiento del tamaño de muestra
permite derivar propiedades interesantes de algunas estadı́sticas, y por lo tanto
el propósito de esta sección es presentar los tipos más corrientes de convergencia
de variables aleatorias.
Por medio de {Xn }, n = 1, 2, . . . , se describe una sucesión de variables
aleatorias X1 , X2 , . . . , la cual es una sucesión de funciones medibles {Xn (w)}
10 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

definida en un espacio muestral Ω, y teniendo en cuenta que todas las variables


aleatorias constituyentes de la sucesión están consideradas en el mismo espacio
de probabilidad (Ω, A, P ).
En primer lugar, siendo {Xn } una sucesión de variables aleatorias y c un
número real, el conjunto {w|Xn (w) = c} ∈ A, de tal manera que
 
P lim Xn = c = 1
n→∞

esté siempre definido.


Se dice que la sucesión de variables aleatorias {Xn } converge casi seguro
a cero o converge a cero con probabilidad uno si:
 
P lim Xn = 0 = 1
n→∞

Además, si las variables aleatorias X1 , X2 , . . . , y la variable aleatoria particular


X están definidas en el mismo espacio de probabilidad, se afirma que la sucesión
de variables aleatorias {Xn } converge casi seguro a la variable aleatoria
X, si la sucesión de variables aleatorias {Xn − X} converge casi seguro a cero,
este tipo de convergencia también se conoce como convergencia fuerte y se
simboliza como
a.s.
Xn −−→ X

Ejemplo 1.3.1. Si el comportamiento probabilı́stico de cada una de las


variables aleatorias de la sucesión {Xn } se modela por medio de la distribu-
ción de Bernoulli de manera que Xn ∼ Ber(( 12 )n ), entonces
a.s.
Xn −−→ 0

En efecto,
 
P lim Xn = 0 = 1
n→∞
 1 n  n
 n
puesto que P [Xn = 0] = 1 − 2 . Como V [Xn ] = 12 1 − 12 , puede
notarse el decrecimiento de la varianza en cuanto n se incrementa, es decir
que Xn va perdiendo el carácter de variable aleatoria porque su varianza va
tendiendo a cero, la variable va asumiendo rasgos de una constante.

En segundo lugar, se dice que la sucesión de variables aleatorias {Xn } con-


verge en probabilidad a la variable aleatoria X, hecho simbolizado como,
p
Xn −
→X

si lim P [|Xn − X| < ] = 1, para  > 0. Para referirse a la convergencia en


n→∞
probabilidad también puede utilizarse convergencia estocástica, convergencia en
medida o convergencia débil .
1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 11

Un tercer tipo de convergencia se conoce como convergencia en momento


de orden r . En este caso cada variable de la sucesión de variables aleatorias
{Xn } y X poseen el momento ordinario de orden r. En estas circunstancias
se afirma que la sucesión de variables aleatorias converge en momento de
orden r a la variable aleatoria X, lo cual se representa como,
rL
Xn −→ X

si lim E [(|Xn − X|)r ] = 0. Particularmente, si r = 1 suele decirse que la suce-


n→∞
sión de variables aleatorias {Xn } converge en valor esperado a la variable
aleatoria X. Similarmente, cuando r = 2 la convergencia se conoce como
convergencia en media cuadrática.
Un cuarto y último tipo de convergencia de variables aleatorias se refiere
a una sucesión de variables aleatorias {Xn }, cuya correspondiente sucesión de
funciones de distribución F1 (x), F2 (x), . . . , es considerada. De esta manera la
sucesión de variables aleatorias {Xn } converge en distribución a la variable
aleatoria X, cuya función de distribución es F (x), hecho denotado:
d
Xn −
→X

si lim Fn (x) = F (x) para todo x.


n→∞
Entre los diferentes tipos de convergencia existen relaciones que es necesario
destacar. El siguiente teorema las reúne.
Teorema 1.3.1. Estando las variables aleatorias X1 , X2 , . . . y la variable par-
ticular X difinidas sobre el mismo espacio de probabilidad (Ω, A, P ),
1. Si {Xn } converge casi seguro a la variable aleatoria X con probabilidad 1,
implica que {Xn } converge en probabilidad a la variable aleatoria X.
2. Si {Xn } converge en valor esperado a la variable aleatoria X, implica que
{Xn } convergen en probabilidad a la variable aleatoria X.
3. Si {Xn } converge en probabilidad a la variable aleatoria X implica que
{Xn } converge en distribución a la variable aleatoria X.
4. Siendo r > s, la convergencia de una sucesión de variables aleatorias
{Xn } en momento de orden r implica la convergencia de la sucesión en
momento de orden s.
De manera gráfica las relaciones que enuncia el teorema 1.3.1, se pueden
recapitular en la figura 1.2
Teorema 1.3.2 (Teorema de Lévy). Considerando la variable aleatoria par-
ticular X y la sucesión de variables aleatorias {Xn }, definidas sobre el mismo
espacio de probabilidad, y siendo {φn (t)} la sucesión de funciones caracterı́sticas
correspondientes a las variables de la sucesión {Xn },
d
Xn −
→ X si y sólo si lim φn (t) = φ(t)
n→∞
12 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

Convergencia
casi segura

Convergencia en Convergencia en
probabilidad distribución

Convergencia en
valor esperado

Figura 1.2: Relaciones entre algunos tipos de convergencia de variables aleato-


rias

para t ∈ R y φ(t) función caracterı́stica de la variable aleatoria X, continua en


cero.
Teorema 1.3.3 (Teorema de Lévy). - Versión para funciones genera-
trices de momentos - Considerando la variable aleatoria particular X y
la sucesión de variables aleatorias {Xn }, definidas sobre el mismo espacio de
probabilidad, y siendo {Mn (t)} la sucesión de funciones generatrices de momen-
tos correspondientes a las variables de la sucesión {Xn }, las cuales existen para
t real en algún intervalo alrededor de cero,
d
Xn −
→ X si y sólo si lim Mn (t) = M (t)
n→∞

para t real en algún intervalo alrededor de cero y M (t) función generatriz de


momentos de la variable aleatoria X.
Teorema 1.3.4. Sea {Xn } una sucesión de variables aleatorias.
p
Xn −
→ c si y sólo si lim Fn (x) = F (x)
n→∞

siendo c una constante, Fn (x) la función de distribución de Xn y F (x) una


función de distribución tal que F (x) = 0 para x < c y F (x) = 1 para x ≥ c.

1.4 Caracterı́sticas generales de algunas estadı́s-


ticas
Los momentos muestrales, además de cumplir funciones análogas a los momen-
tos poblacionales como se incorporó en la definición 1.2.5, son estadı́sticas de
1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 13

uso frencuente que bajo la garantı́a de la existencia de determinados momen-


tos poblacionales, sus distribuciones muestrales poseen propiedades generales
respecto a su posición y a su dispersión en la forma como el siguiente teorema
lo indica.

Teorema 1.4.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


representada por la variable aleatoria X con varianza σ 2 y con momento ordi-
nario μ2r , r = 1, 2, . . . , entonces el valor esperado y la varianza del momento
muestral ordinario son respectivamente:

E[Mr,n ] = μr

 1

V [Mr,n ]= E[X 2r ] − (E[X r ])2
n
1

= μ2r − (μr )2
n
Corolario 1.4.1.1. Bajo las hipótesis del teorema 1.4.1,

E[X n ] = μ1 = μ

σ2
V [X n ] =
n
Teorema 1.4.2. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población
con valor esperado, también llamado promedio poblacional, μ y varianza σ 2 ,
y existiendo además el momento central de orden cuatro μ4 , entonces

1 
n
2
E[Sn ] = E (Xi − X n ) = σ 2
2
n − 1 i=1

 
1 n−3 4
V [Sn2 ] = μ4 − σ ,n > 1
n n−1

El tamaño de la muestra es un elemento substancial tanto para las disquisi-


ciones en la teorı́a de la estadı́stica como para la utilización de la misma. La
pregunta por su magnitud es quizá de las más inquietantes para el investigador
en la búsqueda de respaldo a la confiabilidad de su investigación; el tamaño
muestral es uno de los aspectos con los cuales se certifican o descalifican estu-
dios, es en definitiva un punto obligado para dilucidar.
La incidencia relevante del tamaño de la muestra en la distribución muestral
de muchas estadı́sticas, gira alrededor del tema conocido como distribuciones
asintóticas. En particular en la medida que se vaya incrementando el tamaño de
la muestra, el promedio muestral adquiere unos rasgos propios que los siguientes
teoremas describen.
14 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

Teorema 1.4.3 (Ley débil de los grandes números). Si X1 , X2 , . . . , Xn


es una muestra aleatoria de una población con valor esperado μ y varianza σ 2 ,
entonces
X1 + X2 + . . . + Xn p

→μ
n

La nota de la demostración del teorema anterior, destaca el hecho de que




P − < X n − μ <  ≥ 1 − δ

σ2
para n entero mayor que 2 ,  > 0, δ > 0; lo cual permite determinar la
δ
magnitud del tamaño muestral bajo prefijados requisitos. Esta cota para el
tamaño de la muestra debe entenderse dentro del contexto de una población
infinita y una muestra simple.

Ejemplo 1.4.1. ¿Cuál debe ser el tamaño de la muestra para tener una
probabilidad de 0.95 de que el promedio muestral no difiera en más de una
cuarta parte de la desviación estándar de μ?
En esta situación,  = 0.25σ, δ = 0.05, por lo tanto

σ2
n> = 320
(0.25σ)2 0.05

Modificando parcialmente las condiciones del teorema 1.4.3 en el sentido de


no hacer ninguna mención de la varianza σ 2 , es posible reiterar la convergen-
cia en probabilidad del promedio de la muestra, como lo presenta el siguiente
teorema.

Teorema 1.4.4 (Teorema de Khintchine). Si X1 , X2 , . . . , Xn es una mues-


tra aleatoria de una población con valor esperado μ entonces
p
Xn −
→μ

De manera más general, la convergencia en probabilidad de los momentos


muestrales ordinarios a los momentos poblacionales ordinarios está avalada por
el siguiente teorema.

Teorema 1.4.5. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


para la cual el momento central μ2r existe, entonces

 p
Mr,n → μr ,
− r = 1, 2, . . .

Para cerrar esta relación de teoremas que giran alrededor de la idea de la


Ley débil de los grandes números, se incluye el siguiente teorema que puede
entenderse como una generalización de la citada ley.
1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 15

Teorema 1.4.6. Si X1 , X2 , . . . es una sucesión de variables aleatorias tales que


E[Xi ] = μi y V [Xi ] = σi2 son finitos y ρ(Xi , Xj ) = 0, i = j, para i = 1, 2, . . . ,
entonces
p
X n − μn −
→0
1 n
siendo μn = μi
n i=1
La Ley fuerte de los grandes números es un conjunto de teoremas referentes
a la convergencia casi segura de sucesiones de variables aleatorias. El teore-
ma siguiente es el más divulgado de todos y fue enunciado originalmente por
Kolmogorov.
Teorema 1.4.7 (Ley fuerte de los grandes números). Si X1 , X2 , . . . , Xn
es una muestra aleatoria de una población con valor esperado μ, entonces la
sucesión {X n − μ} converge casi seguro a cero.
Teorema 1.4.8. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población
con valor esperado μ y varianza σ 2 , entonces
a.s.
Sn2 −−→ σ 2
p
y en consecuencia Sn2 −
→ σ2
Con la denominación de Teorema del Lı́mite Central debe entenderse más a
un conjunto de teoremas concernientes a la convergencia en distribución de la
suma de un número creciente de variables aleatorias al modelo Gaussiano, que a
la más popular de sus versiones. Es un conjunto de teoremas fundamentales de
la Estadı́stica pues constituyen puntos de apoyo substanciales de la Inferencia
estadı́stica y de las aplicaciones.
Bajo la citada denominación de teorema del lı́mite central se incluyen
variantes como la versión original conocida como la ley de los errores, derivada
de los trabajos de Gauss y Laplace sobre la teorı́a de errores, que permitió el
surgimiento de las versiones más antiguas referentes a variables con distribución
de Bernoulli, debidas a De Moivre y Laplace en los siglos XVI y XVII, se in-
cluyen las versiones de Lindeberg-Lévy y Lindeberg-Feller, que son consecuencia
de un trabajo inciado por Chevyshev y Liapunov a finales del siglo XIX, trabajo
encaminado a la búsqueda de una demostración rigurosa, se incluyen las ver-
siones de Bikelis y aquellas adaptadas para los casos multivariados, y también
se incluyen aquellas para el caso de variables dependientes.
En particular la versión clásica o Teorema de Lindeberg-Lévy, la versión más
difundida, corresponde al siguiente teorema, resultado al que llegaron de manera
independiente J.W.Lindeberg y P.Lévy en la segunda década del siglo XX.
Teorema 1.4.9 (Teorema del Lı́mite Central (Lindeberg-Lévy)). Si
X1 , X2 , . . . , Xn es una muestra aleatoria de una población con valor esperado
μ y varianza σ 2 finitos, considerando la variable aleatoria
Xn − μ
Zn =
√σ
n
16 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

entonces la sucesión de variables aleatorias {Zn } converge en distribución a una


variable aleatoria con distribución Normal estándar.
En pocas palabras, esta difundida versión determina que,

n(X n − μ) d

→ Z ∼ N (0, 1)
σ
El teorema del lı́mite central es la mejor justificación de la existencia del
modelo Gaussiano y del énfasis que de él se hace reiteradamente. Por otra
parte lo admirable del teorema radica en que no importa el modelo regente del
comportamiento probabilı́stico de la población, y en que la exigencia de finitud
del valor esperado y la varianza es fácil satisfacerla en las aplicaciones.
Para finalizar estas consideraciones acerca del teorema del lı́mite central se
presenta una versión especial la cual corresponde al teorema de Lindeberg-Feller.
Teorema 1.4.10 (Teorema del Lı́mite Central (Lindeberg-Feller)). Si
X1 , X2 , . . . es una sucesión de variables aleatorias independientes con valor es-
n
perado μi y varianza σi2 finitos, i = 1, 2, . . . y asumiendo que τn2 = σi2 → ∞
 2 i=1
σ
y además que max τ i2 → 0 cuando n → ∞, entonces
1≤i≤n n


n
(Xi − μi )
i=1 d

→ Z ∼ N (0, 1)
τn
si y sólo si para cada  > 0,
 
1 
n
lim 2 (x − μi )2 fi (x)dx = 0
n→∞ τn |x−μ |≥τ
i=1 i n

siendo fi (x) la función de densidad de la variable aleatoria Xi , i = 1, 2, . . .


Cuando el comportamiento de una población se asume regido por el
modelo Gaussiano, se pueden deducir propiedades especı́ficas adicionales para el
promedio y varianza muestrales, propiedades que hacen explı́citas los siguientes
teoremas.
Teorema 1.4.11. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población
con distribución Normal de valor esperado μ y varianza σ 2 , entonces
 
σ2
X n ∼ N μ,
n
Teorema 1.4.12. Si X1 , X2 , . . . , Xn es una sucesión de variables aleatorias
independientes tales que Xi ∼ N (μi , σi2 ), entonces
n  2
Xi − μi
U= ∼ χ2 (n)
i=1
σ i
1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 17

Corolario 1.4.12.1. Cuando la sucesión de variables aleatorias constituye una


muestra aleatoria de una población con distribución Normal, de valor esperado
μ y varianza σ 2 ,
n 
 2
Xi − μ
U= ∼ χ2 (n)
i=1
σ

Teorema 1.4.13. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


con distribución Normal de valor esperado μ y varianza σ 2 , entonces las es-
tadı́sticas X n y Sn2 son dos variables aleatorias estadı́sticamente independientes.

Teorema 1.4.14. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


Normal de valor esperado μ y varianza σ 2 , entonces


n
(Xi − X n )2 (n − 1)Sn2
= ∼ χ2 (n − 1)
i=1
σ2 σ2

Con supuestos menos taxativos, el promedio y la varianza muestrales pre-


sentan un comportamiento muy particular. Los siguientes teoremas resaltan la
marcada autonomı́a de las estadı́sticas X n y Sn2 .

Teorema 1.4.15. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


cuya función de densidad es simétrica, entonces

cov(X n , Sn2 ) = 0

La expresión usual de la varianza muestral incluye el promedio de la muestra,


es decir que la varianza podrı́a entenderse como función de éste. Sin embargo, su
presencia en la expresión puede considerarse aparente puesto que la varianza de
la muestra puede prescindir del promedio muestral en la forma como lo garantiza
el siguiente teorema 3 .

Teorema 1.4.16. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


para la cual no se asume un modelo de probabilidad especı́fico, entonces

1  n n
Sn2 = (Xi − Xj )2
2n(n − 1) i=1 j=1

En sı́ntesis, es claro que el promedio y varianza de la muestra son estadı́sticas


tales que bajo el modelo Gaussiano son estadı́sticamente independientes, bajo un
modelo de probabilidad cuya función de densidad es simétrica, las estadı́sticas
no están correlacionadas, y en cualquier situación la varianza de la muestra no
depende funcionalmente del promedio de la muestra.
3 Jorge E. Ortiz P. Boletı́n de Matemáticas. Volúmen VI No. 1 (1999), pp. 43-51
18 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

1.5 Estadı́sticas de orden


Una modalidad especial de estadı́sticas la integran las llamadas estadı́sticas
de orden. Ellas desempeñan papeles importantes en algunas aplicaciones como
en las Cartas de Control Estadı́stico de la Calidad y como en el fundamento y
manejo de algunos conceptos en Estadı́stica no paramétrica. Además de estos y
otros usos, las estadı́sticas de orden son particularmente los estimadores apropi-
ados de parámetros que rigen el recorrido de la población, y ası́ mismo son
utilizadas en el juzgamiento de hipótesis referentes a estos parámetros. Por ser
estimadores y sustentar reglas de decisión en poblaciones especiales es menester
exponer algunos elementos y consideraciones acerca de su distribución.
Definición 1.5.1. La k-ésima estadı́stica de orden, k = 1, 2, . . . , n,
correspondiente a una muestra aleatoria X1 , X2 , . . . , Xn , denotada por Xk,n ,
está definida de la siguiente manera
Xk,n = min {{X1 , X2 , . . . , Xn } − {X1,n , X2,n , . . . , Xk−1,n }}
siendo
X1,n : mı́nimo de la muestra

Xn,n : máximo de la muestra


Al conjunto de estadı́sticas de orden X1,n , X2,n , . . . , Xn,n se le designa con el
nombre de muestra aleatoria ordenada.
A partir de las estadı́sticas de orden pueden definirse otras estadı́sticas como:
• El rango muestral
R = Xn,n − X1,n

• El semirango muestral
X1,n + Xn,n
SR =
2
• La mediana muestral


⎪ X n+1 ,n , si n es impar

⎨ 2

Me =


⎪ X n + X n2 +1,n
⎩ 2 ,n , si n es par
2
• La función de distribución empı́rica o función de distribución
muestral
1
n
Fn (x) = I(−∞,x] (xi )
n i=1
1.5. ESTADÍSTICAS DE ORDEN 19

es decir,

⎪ 0, si x < X1,n






k
Fn (x) = , si Xk,n ≤ x < Xk+1,n
⎪n






1, si x ≥ Xn,n , k = 1, 2, . . . , n − 1

1.5.1 Distribución de las estadı́sticas de orden


Las estadı́sticas heredan en menor o mayor medida los rasgos del modelo elegido
para representar el comportamiento poblacional. Especı́ficamente la distribu-
ción muestral de las estadı́sticas de orden incluye de manera explı́cita las fun-
ciones de densidad y distribución de la población como lo registran los siguientes
teoremas.
Teorema 1.5.1. Siendo X1,n , X2,n , . . . , Xn,n las estadı́sticas de orden o la mues-
tra ordenada de una población con función de distribución FX (x), entonces para
k = 1, 2, . . . , n
n  
 n
FXk,n (y) = [FX (y)]j [1 − FX (y)]n−j
j
j=k

Corolario 1.5.1.1. Para los casos especiales del mı́nimo y máximo de la mues-
tra se tiene:

FX1,n (y) = 1 − [1 − FX (y)]n


FXn,n (y) = [FX (y)]n

Teorema 1.5.2. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de distribución contı́nua FX (x), la función de densidad de la k-
ésima estadı́stica de orden es
n!
fXk,n (y) = [FX (y)]k−1 [1 − FX (y)]n−k fX (y), k = 1, 2, . . . , n
(k − 1)!(n − k)!
La función conjunta de densidad de la j-ésima estadı́stica de orden y la
k-ésima estadı́stica de orden fXj,n ,Xk,n (x, y) es

c(n, j, k)[FX (x)]j−1 [FX (y) − FX (x)]k−j−1 [1 − FX (y)]n−k fX (y)fX (x)I(x,∞) (y)

para 1 ≤ j < k ≤ n, con c(n, j, k) = n!/[(j − 1)!(k − j − 1)!(n − k)!]. La función


conjunta de densidad de las estadı́sticas de orden es
⎧ n

⎨ n! fX (yi ) y1 < y2 < · · · < yn
fX1,n ,X2,n ,... ,Xn,n (y1 , y2 , . . . , yn ) = i=1


0 en otros casos
20 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

Ejemplo 1.5.1. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución Uniforme en el intervalo (α, β), determinar la función de den-
sidad de la k-ésima estadı́stica de orden.

1
fX (x) = I(α,β) (x)
β−α
x−α
FX (x) = I(α,β) (x) + I[β,∞) (x)
β−α
 k−1  n−k  
n! y−α y−α 1
fXk,n (y) = 1− I(α,β) (y)
(k − 1)!(n − k)! β − α β−α β−α
 n
n! 1
= (y − α)k−1 (β − y)n−k I(α,β) (y)
(k − 1)!(n − k)! β − α

La distribución de la k-ésima estadı́stica de orden es la de una variable aleatoria


con distribución Beta en el intervalo (α, β) con parámetros k y (n−k+1) cuando
la población es Uniforme en el intervalo (α, β).

Nota. Una variable aletoria X con distribución Beta en el intervalo (0, 1) puede
generar una variable aleatoria Y con distribución Beta en el intervalo (α, β)
mediante la relación

Y = α + (β − α)X

Teorema 1.5.3. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población


con función de distribución FX (x) continua. Para p fijo, si xp denota al único
percentil 100p poblacional, entonces


k−1 
n l
P [Xj,n < xp < Xk,n ] = p (1 − p)n−l
l
l=j

1.5.2 Distribución del rango, semirango y mediana mues-


trales
Las estadı́sticas correspondientes al rango y semirango son funciones del máximo
y mı́nimo muestrales, por lo tanto la determinación de su distribución parte de
la consideración de la distribución conjunta de X1,n y Xn,n
n−2
fX1,n ,Xn,n (x, y) = n(n − 1) [FX (y) − FX (x)] fX (x)fX (y)I(x,∞) (y)

Definidas las estadı́sticas:

R = Xn,n − X1,n

X1,n + Xn,n
T =
2
1.5. ESTADÍSTICAS DE ORDEN 21

se considera la siguiente transformación


r r
x=t− y =t+
2 2
cuyo jacobiano es
 
 ∂x ∂x   1 
   1
 ∂r ∂t  =  2
 =1
 ∂y ∂y   1 1
  2
∂r ∂t
con lo cual
  n−2  
fR,T (r, t) = n(n − 1) FX t + 2r − FX t − r2 fX t − 2r fX t − 2r
En consecuencia, para r > 0, se tiene
 ∞
fR (r) = fR,T (r, t)dt
−∞
 ∞
fT (t) = fR,T (r, t)dr
−∞

La distribución de la mediana está dependiendo del tamaño de la muestra. Si


éste es entero impar, su distribución está totalmente determinada pues
corresponde a la distribución de la estadı́stica de orden n+1
2 . Para la situación
en la cual n es par, la mediana es función de las estadı́sticas de orden X n2 ,n y
X n2 +1,n . Ası́ al tomar n = 2m, m = 1, 2, . . .

fX n ,n ,X n +1,n (x, y) = fXm,n ,Xm+1,n (x, y)


2 2

(2m)!
= [FX (x)]m−1 [1 − FX (x)]m−1 fX (x)fX (y)
[(m − 1)!]2
x+y
con x < y. Considerando la transformación u = 2 ,v = y, se tiene que
f x+y (u) = fU (u)
2
 ∞
2(2m)!
= [FX (2u − v)]m−1 [1 − FX (v)]m−1 fX (2u − v)fX (v)dv
[(m − 1)!]2 u

1.5.3 Distribución de la función de distribución empı́rica


La función de distribución empı́rica tiene varios usos especialmente en métodos
y conceptos de la Estadı́stica no paramétrica. Su gráfico se convierte en un
indicativo de una primera aproximación al ajuste que brinda el modelo. Algunos
aspectos de su distribución se presentan a continuación.
   
k n
P Fn (x) = = [FX (x)]k [1 − FX (x)]n−k
n k

donde k = 0, 1, 2, . . . , n. En efecto, denotando la variable aleatoria


Zi = I(−∞,x] (Xi )
22 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES


n
luego Zi ∼ Ber(FX (x)), por lo tanto Zi ∼ Bin(n, FX (x)) y por consiguiente
i=1

E[Fn (x)] = FX (x)

FX (x)[1 − FX (x)]
V [Fn (x)] =
n
Teorema 1.5.4. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de distribución FX (x), entonces
P
Fn (x) −→ FX (x)

para un valor x dado.


Teorema 1.5.5 (Teorema de Glivenko-Cantelli). Si X1 , X2 , . . . , Xn es una
muestra aleatoria de una población con función de distribución FX (x), entonces
Fn (x) converge uniformemente a FX (x), esto es, para cada  > 0,
 
lim P sup |Fn (x) − FX (x)| <  = 1
n→∞ −∞<x<∞

FX (x)

Fn (x)
|
x

Figura 1.3: Esquema de las funciones de distribución Fn (x) y FX (x)

Teorema 1.5.6. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de distribución FX (x), la sucesión de variables aleatorias
√ 
n[Fn (x) − FX (x)]

FX (x)[1 − FX (x)]

converge en distribución a una variable aleatoria con distribución Normal estándar.


1.6. MOMENTOS DE ESTADÍSTICAS DE ORDEN 23

1.6 Momentos de estadı́sticas de orden


Los teoremas 1.5.1 y 1.5.2 puntualizan respectivamente la función de distribu-
ción y la función de densidad de la k-ésima estadı́stica de orden. En principio,
garantizada la existencia del momento de interés y determinada explı́citamente
la función de distribución FX (x), podrı́a formalizarse el momento con base en
las referidas funciones de distribución o de densidad. Sin embargo, su logro
depende de la complejidad de la integración requerida para su cálculo, dado que
algunas veces se alcanza únicamente por medio de integración numérica.
A manera de ejemplo, considerando el comportamiento poblacional como in-
diferente para cualquier valor del intervalo (0, 1), el valor esperado, la varianza
y el momento de orden r de la estadı́stica de orden k es factible determinarlos.
Ejemplo 1.6.1. Siendo X1,n , X2,n , . . . , Xn,n es una muestra ordenada de una
población con distribución Uniforme en el intervalo (0, 1)
k
E[Xk,n ] =
n+1
k(n − k + 1)
V [Xk,n ] =
(n + 2)(n + 1)2
  12
j(n − k + 1)
ρ(Xj,n , Xk,n ) = , j<k
k(n − j + 1)
En efecto. En primer lugar, de manera general
 1
n!
r
E[Xk,n ] = xr+k−1 (1 − x)n−k dx
(k − 1)!(n − 1)! 0
n!
= β(r + k, n − k + 1)
(k − 1)!(n − 1)!
Γ(a)Γ(b)
y utilizando la relación β(a, b) = , entonces
Γ(a + b)
r n! Γ(r + k)Γ(n − k + 1)
E[Xk,n ]=
(k − 1)!(n − 1)! Γ(r + k + n − k + 1)
n!(r + k − 1)!
= , 1≤k≤n
(r + n)!(k − 1)!
particularmente,
n!k! k
E[Xk,n ] = =
(n + 1)!(k − 1)! n+1
2
V [Xk,n ] = E[Xk,n ] − (E[Xk,n ])2
2 n!(k + 2 − 1)! k(k + 1)
E[Xk,n ]= =
(n + 2)!(k − 1)! (n + 1)(n + 2)
k(k + 1) k2 k(n − k + 1)
V [Xk,n ] = − 2
=
(n + 1)(n + 2) (n + 1) (n + 2)(n + 1)2
24 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

Por otra parte, denotándo E[Xj,n , Xk,n ] = Δ, se tiene que


 1  y
n!
Δ= xj y(y − x)k−j−1 (1 − y)n−k dxdy
(j − 1)!(k − j − 1)!(n − k)! 0 0
 1  y 
n!
= y(1 − y) n−k
x (y − x)
j k−j−1
dx dy
(j − 1)!(k − j − 1)!(n − k)! 0 0

x
Realizando la sustitución v =
y
 1
n!

Δ= y(1 − y)n−k y k β(j + 1, k − j) dy
(j − 1)!(k − j − 1)!(n − k)! 0
n!
= β(1 + j, k − j)β(k + 2, n − k + 1)
(j − 1)!(k − j − 1)!(n − k)!
j(k + 1)
= = E[Xj,n , Xk,n ]
(n + 1)(n + 2)

con lo cual
j(k + 1) jk
Cov(Xj,n , Xk,n ) = − j<k
(n + 1)(n + 2) (n + 1)2


j(n − k + 1)
ρ(Xj,n , Xk,n ) = j<k
k(n − j + 1)

por lo tanto, como caso especial, la correlación entre el mı́nimo y máximo de la


muestra bajo comportamiento poblacional Uniforme en el intervalo (0, 1) es

1
ρ(X1,n , Xn,n ) =
n
Como ya se mencionó, en algunos casos se requiere integración numérica
para determinar momentos de una estadı́stica de orden. Sin embargo es posible
presentar expresiones que permiten aproximar el valor esperado y varianza de
la k-ésima estadı́stica de orden.
El desarrollo de estas expresiones se basa en una expansión en serie de Taylor
y en el hecho de que si X es una variable aleatoria con función de distribución
FX (x) continua, la variable aleatoria Y = FX (X) tiene distribución Uniforme
en (0, 1), entonces
 
−1 k
E[Xk,n ]
FX
n+1
k(n − k + 1)
V [Xk,n ]
   2
−1 k
(n + 1)2 (n + 2) fX FX n+1
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 25

Finalmente se expone una breve alusión a la distribución asintótica de las es-


tadı́sticas de orden.
El estudio de la distribución asintótica de la k-ésima estadı́stica de orden
incluye dos casos a saber: el primero cuando n tiende a infinito y nk permanece
fijo, el segundo cuando n tiende a infinito y k o n − k permanecen finitos.
Para algunos efectos, el primer caso es de mayor interés; el teorema siguiente
se adscribe a ese caso.
Teorema 1.6.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
cuya función de distribución FX (x) es estrictamente monótona. Asumiendo que
xp es el percentil 100p poblacional, es decir, FX (xp ) = p, entonces la estadı́stica
de orden [np] + 1 tiene distribución asintótica Normal con valor esperado xp y
varianza n[fp(1−p)
X (xp )]
2.

Particularmente, si p = 12 (mediana) y la población es Normal con valor


esperado μ y varianza σ 2 la mediana muestral tiene distribución Normal con
2
valor esperado μ y varianza πσ 2n .
Con este teorema relativo a la distribución asintótica de la k-ésima estadı́stica
de orden concluye la introducción a las ideas preliminares de la Inferencia es-
tadı́stica, presentación que además entreabre el contexto filosófico en el cual
se desempeña, que describe las caracterı́sticas más relevantes de algunas es-
tadı́sticas y registra como estadı́sticas especiales a las estadı́sticas de orden.
Con esto se da paso a la exposición de los argumentos que sustentan las afirma-
ciones de los enunciados de los teoremas relacionados y finalmente a la serie de
ejercicios cuyo desarrollo complementará la reflexión sobre estos temas iniciales
y será un componente más en la aprehensión de los conceptos expuestos en este
primer capı́tulo.

1.7 Demostración de los teoremas del capı́tulo


Demostración (Teorema 1.3.1). Algunos apartes de la demostración pueden
consultarse en A first course in mathematical statistics, de G. Roussas, páginas
133 a 135 y en Basic probability theory de R. Ash, páginas 204 y 205.
p
Demostración (Teorema 1.3.4). Suponiendo que Xn −
→ c, entonces para
>0
lim P [|Xn − c| < ] = 1 = lim P [c −  < Xn < c + ]
n→∞ n→∞
= lim [Fn (c + ) − Fn (c − )]
n→∞
= lim [Fn (c + )] − lim [Fn (c − )]
n→∞ n→∞

La imagen de cualquier función de distribución es un valor que pertenece al


intervalo [0, 1], luego la única posibilidad para que la igualdad anterior se de es
que
lim Fn (c + ) = 1 y lim Fn (c − ) = 0
n→∞ n→∞
26 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

hecho revelador de que Fn (x) −→ F (x) siendo F (x) una función de distribución
tal que

0 si x < c
F (x) =
1 si x ≥ c

es decir que F (x) es la función de distribución de una constante c.


Suponiendo ahora que Fn (x) −→ F (x) con F (x) = I[c,∞) (x), es decir que

lim Fn (x) = F (x)


n→∞

entonces

lim Fn (c − ) = 0 para  > 0 y lim Fn (c + ) = 1


n→∞ n→∞

luego

lim [Fn (c + ) − Fn (c − )] = 1 = lim P [c −  < Xn < c + ]


n→∞ n→∞
= lim P [|Xn − c| < ]
n→∞

p
lo cual significa que Xn −
→ c.
Demostración (Teorema 1.4.1). El valor esperado del momento ordinario
de orden r puede determinarse mediante dos argumentos. En primer lugar,
utilizando las propiedades del valor esperado se tiene que
n
1 r 1
n

E[Mr,n ] = E Xi = E[Xir ], r = 1, 2, . . .
n i=1 n i=1

En segundo lugar, como todas las variables aleatorias de la sucesión tienen la


misma distribución, por constituir una muestra aleatoria, E[Xir ] = μr , para
i = 1, 2, . . . , n, en consecuencia

1 
n
 1
E[Mr,n ]= μ = (nμr ) = μr
n i=1 r n

De manera similar puede determinarse la varianza del momento ordinario de


orden r. De las propiedades de la varianza, se puede afirmar que
n n
 1 r 1 
r
V [Mr,n ] = V X = 2V Xi , r = 1, 2, . . .
n i=1 i n i=1

y debido a que las variables aleatorias son independientes, pues constituyen una
muestra aleatoria, lo son también las variables X1r , X2r , . . . , Xnr , con lo cual

1  1  
n n
 2
V [Mr,n ] = 2 r
V [Xi ] = 2 E[Xi2r ] − (E[Xir ])
n i=1 n i=1
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 27

y como las variables tienen distribución idéntica,

1   1 
n

V [Mr,n ]= 2
μ2r − (μr )2 = μ2r − (μr )2
n i=1 n

Demostración (Teorema 1.4.2). Para determinar el valor esperado de la


varianza muestral, es necesario previamente verificar la identidad:

n
(Xi − μ)2 = (n − 1)Sn2 + n(X n − μ)2
i=1

El sumar y restar X n es el punto de partida en la verificación de la identidad,


de tal manera que

n 
n 
n

2
(Xi − μ)2 = (Xi − X n + X n − μ)2 = (Xi − X n ) + (X n − μ)
i=1 i=1 i=1

Asimismo después de desarrollar el cuadrado indicado,



n 
n 
n
(Xi − μ)2 = (Xi − X n )2 + 2(X n − μ) (Xi − X n ) + n(X n − μ)2
i=1 i=1 i=1

n
= (Xi − X n )2 + n(X n − μ)2
i=1


n 
n
porque (Xi − X n ) = Xi − nX n = nX n − nX n = 0, y por lo tanto
i=1 i=1


n
(Xi − μ)2 = (n − 1)Sn2 + n(X n − μ)2
i=1

Con el anterior recurso,



1 
n
n
E[Sn2 ] =E (Xi − μ) −
2
(X n − μ)2
n − 1 i=1 n−1
n
1 
= E[(Xi − μ)2 ] − nE[(X n − μ)2 ]
n − 1 i=1

como E[(Xi − μ)2 ] = V [Xi ], E[(X n − μ)2 ] = V [X n ] y teniendo en cuenta que


todas las variables aleatorias de la sucesión tienen la misma distribución,
n  2 
1  σ 1
2
E[Sn ] = σ −n
2
= [nσ 2 − σ 2 ] = σ 2
n − 1 i=1 n n−1

La demostración del segundo enunciado del teorema, es uno de los ejercicios de


este capı́tulo.
28 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

Demostración (Teorema 1.4.3). La herramienta procedente para sustentar


el desarrollo de esta demostración será la desigualdad de Chevyshev, la cual
2
asegura que si X es una variable aleatoria con valor esperado μX y varianza σX
finita,
1
P [|X − μX | < rσX ] ≥ 1 − para cada r > 0
r2
Aplicando la desigualdad al caso especial de la variable aleatoria X n , teniendo en
σ2
cuenta que E[X n ] = μ y V [X n ] = , como lo manifiesta el corolario 1.4.1.1,
n
 
  σ 1
 
P Xn − μ < r √ ≥1− 2 para cada r > 0
n r
utilizando el reemplazo  = r √σn se tiene que  > 0 y

  σ2
P [X n − μ < ] ≥ 1 − 2
n
de tal manera que
  σ2
lim P [X n − μ < ] ≥ lim 1 − 2 = 1
n→∞ n→∞ n
es decir que
 
lim P [X n − μ < ] = 1
n→∞

p
lo cual significa que X n −
→ μ, como lo afirma la ley débil de los grandes números.
σ2
Nota. La cota 1 − 2 crece en cuanto n crece. Si se fija la cota en 1 − δ,
n
0 < δ < 1, significa que existe un tamaño de muestra mı́nimo n, para el cual
σ2
P [|X n − μ| < ] ≥ 1 − δ. Dicho en otros términos 1 − 2 > 1 − δ, es decir,
n
σ2
P [− < X n − μ < ] ≥ 1 − δ, para n >
δ2
Demostración (Teorema 1.4.4). Utilizando la función generatriz de momen-
tos de la variable que representa a la población MX (t), o en su defecto la función
caracterı́stica φX (t),
    
t t t
MX n (t) = E e tX n
= E exp X1 + X2 + · · · + Xn
n n n
como las variables constituyen una muestra aleatoria,
n  t
 n  t    n
t
MX n (t) = E e n Xi = E e n X
= MX
i=1 i=1
n
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 29

entonces
   2 n
μ t 1 t
MX n (t) = 1 + 2
+ E[X ] + ···
1! n 2! n
  n
μt t
lim MX n (t) = lim 1+ +O = eμt
n→∞ n→∞ n n
función generatriz que corresponde a la función generatriz de una constante μ.
(O es el sı́mbolo “o pequeña”usado en el estudio de las series). Lo cual significa
que
d
Xn −
→μ
y con base en el teorema 1.3.4 se tiene que
p
Xn −
→μ
Demostración (Teorema 1.4.5). Como la sucesión X1r , X2r , . . . , Xnr confor-
ma un conjunto de variables aleatorias independientes e idénticamente dis-
tribuidas porque la sucesión X1 , X2 , . . . , Xn es una muestra aleatoria, entonces
sólo resta aplicar el teorema relativo a la Ley débil de los grandes números uti-
lizando la sucesión X1r , X2r , . . . , Xnr , con lo cual se puede concluir que
1 r p
n
→ E [X1r ] = μr
[X ] −
n i=1 i

Demostración (Teorema 1.4.7). Puede consultarse en Probability and Sta-


tistical Inference de Robert Bartoszynski y Magdalena Niewiadomska-Bugaj (1996)
en las páginas 430 a 431.
Demostración (Teorema 1.4.9). La estrategia para la demostración consiste
en el uso de la función generatriz de momentos y de sus propiedades, para lo cual
se asume la existencia de la función generatriz de momentos de la población.
Se apoya la demostración en el desarrollo en serie de McLaurin de la función
generatriz de momentos, demostración que también se puede llevar a cabo, uti-
lizando la función caracterı́stica.
Denotando como MZn (t) la función generatriz de momentos de la variable
aleatoria Zn , se tiene:


MZn (t) = E etZn
√  
n Xn − μ
= E exp t
σ
 
t √  Xi − μ
n
= E exp n
n i=1
σ
n  
t √ Xi − μ
=E exp n
i=1
n σ
30 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

como las variables de la sucesión X1 , X2 , . . . , Xn son variables aleatorias in-


dependientes por tratarse de una muestra aleatoria, las variables Y1 , Y2 , . . . , Yn
también lo son, siendo Yi = Xiσ−μ , i = 1, 2, . . . , n y por lo tanto,
n    n  
t t
MZn (t) = E exp √ Yi = MYi √
i=1
n i=1
n

como las variables Y1 , Y2 , . . ., Yntienen 


la misma
 distribución, con función
generatriz de momentos MYi √tn = MY √tn , i = 1, 2, . . . , n, entonces

n     n
t t
MZn (t) = MY √ = MY √
i=1
n n

El desarrollo en serie de McLaurin de la función generatriz MY (t) evaluada en


el valor √tn es
 2  3
μ1 t 1 μ2 t 1 μ3 t
MY (t) = 1 + √ + √ + √ + ···
σ n 2! σ 2 n 3! σ 3 n
como el valor esperado es igual a cero, por lo tanto, si existen, μr = μr ,
r = 1, 2, . . . , y además la varianza es igual a uno,
   2  3
t 1 σ2 t 1 μ3 t
MY √ =1+ √ + √ + ···
n 2! σ 2 n 3! σ 3 n
 
1 1 2 1 1
=1+ t + √ μ3 t + 3
μ4 t + · · ·
4
n 2! 3! n 4!n

efectuando el reemplazo Pn (t) = 1 2


2! t + 1
√ μ t3
3! n 3
+ 1
4!n μ4 t
4
+ · · · y dado que
  n
MZn (t) = MY √tn ,
n
MZn (t) = [1 + Pn (t)]

n
lim MZn (t) = lim [1 + Pn (t)]
n→∞ n→∞
 
= exp lim Pn (t)
n→∞
1 2
= e2t

porque los coeficientes de t3 , t4 , . . . tienden a cero cuando n → ∞.


1 2
Además e 2 t se reconoce como la función generatriz de momentos de una
variable aleatoria con distribución Normal estándar. Como
1 2
lim MZn (t) = MZ (t) = e 2 t
n→∞

d
de acuerdo con el teorema de Lévy, Zn −
→ Z, Z ∼ N (0, 1).
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 31

Demostración (Teorema 1.4.10). Los elementos que se requieren para el de-


sarrollo de la demostración de este teorema están más allá del alcance de este
texto.
Demostración (Teorema 1.4.11). Nuevamente se ha elegido a la función
generatriz de momentos como medio para llevar a cabo esta demostración. Sien-
do
 
1
MX (t) = exp μt + σ 2 t2
2
la función generatriz de una variable aleatoria X, X ∼ N (μ, σ 2 ),
 
MX n (t) = E etX n
 
1
n
= E exp t Xi
n i=1
n
t
=E exp Xi
i=1
n
debido a la independencia de las variables que constituyen la muestra aleatoria,
n   n  
t t
MX n (t) = E exp Xi = MXi
i=1
n i=1
n
Finalmente, como las citadas variables están identicamente distribuidas, de
acuerdo al modelo Gaussiano,
n  
t
MX n (t) = MX
i=1
n
n
  2 
t 1 2 t
= exp μ + σ
i=1
n 2 n
  2  n
t 1 t
= exp μ + σ 2
n 2 n
 
1 σ2 2
= exp μt + t
2 n
 2

lo cual significa que X n ∼ N μ, σn
Xi − μi
Demostración (Teorema 1.4.12). La variable aleatoria Zi = , para
σi
i = 1, 2, . . . , n, es una variable aleatoria con distribución Normal estándar lo
cual permite afirmar que Zi2 ∼ χ2 (1).
Con el concurso de la función generatriz de momentos, puede establecerse que
n n

tU t Zi2
tZ 2
MU (t) = E e = E e i=1 =E e i
i=1
32 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

como la sucesión Z1 , Z2 , . . . , Zn es una sucesión de variables aleatorias inde-


pendientes,
n  2 n n   12   n2
1 1
MU (t) = E etZi = MZi2 (t) = =
i=1 i=1 i=1
1 − 2t 1 − 2t

lo cual significa que U ∼ χ2 (n).


Demostración (Teorema 1.4.13). La demostración está orientada a la de-
terminación de la independencia de X n , (X1 − X n ), (X2 , X n ), . . . , (Xn − X n )

n
para luego concluir la independencia entre X n y (Xi − X n )2 .
i=1
En primer lugar, la función generatriz de momentos M (t, t1 , t2 , . . . , tn ) de las
n
variables aleatorias X n , (X1 −X n ), (X2 , X n ), . . . , (Xn −X n ), con c = √2πσ 1
,
es

n
(xi − μ)2
c exp txn + t1 (x1 − xn ) + · · · + tn (xn − xn ) − dx1 · · · dxn
Rn i=1
2σ 2
En segundo lugar, al considerar la integral sobre xi , i = 1, 2, . . . , n se tiene
 ∞ ! "
1 xi (xi − μ)2
√ exp [t + nti − (t1 + t2 + · · · + tn )] − dxi
−∞ 2πσ n 2σ 2
que al efectuar el reemplazo

1 n
1
1
n
t + nti − ti = t + n(ti − t) con t = ti
n i=1
n n i=1
entonces la integral anterior puede expresarse como
 ∞ ! "
1 1
(xi − μ)2
√ exp t + n(ti − t) xi − dxi
−∞ 2πσ n 2σ 2
cuyo valor es finalmente

2 
μ
σ 2 t + n(ti − t)
exp t + n(ti − t) +
n 2n2
por consiguiente
 
2 

n
μ
σ 2 t + n(ti − t)
M (t, t1 , t2 , . . . , tn ) = exp t + n(ti − t) +
i=1
n 2n2

n
y como (ti − t) = 0, entonces
i=1
 
σ2 
n
σ 2 t2
M (t, t1 , . . . , tn ) = exp μt + + (ti − t)2
2n 2 i=1
! "  
σ2 
n
1 σ2 2
= exp μt + t exp (ti − t)2
2 n 2 i=1
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 33

hecho que revela la independencia de X n , (X1 −X n ), (X2 −X n ), . . . , (Xn −X n ).


Por consiguiente X n , (X1 − X n )2 , (X2 − X n )2 , . . . , (Xn − X n )2 es un conjunto

n
de variables aleatorias independientes e igualmente X n y (Xi − X n )2 . En
i=1
consecuencia X n y Sn2 son estadı́sticamente independientes.
Demostración (Teorema 1.4.14). De la demostración del teorema 1.4.2 se
tiene que

n 
n
(Xi − μ)2 = (Xi − X n )2 + n(X n − μ)2
i=1 i=1

por lo tanto

n 
n
(Xi − μ)2 (Xi − X n )2
i=1 i=1 n(X n − μ)2
= +
σ2 σ2 σ2
luego
⎡ ⎡ n ⎤⎤
(Xi − μ)2   
⎢ ⎢ i=1 ⎥⎥
⎥⎥ = E exp t (n − 1)Sn + t n(X n − μ)
2 2
E⎢
⎣exp ⎢t
⎣ ⎦⎦
σ2 σ2 σ2

    
(n − 1)Sn2 n(X n − μ)2
= E exp t E t
σ2 σ2

puesto que X n y Sn2 son estadı́sticamente independientes.


Debido a que

n
(Xi − μ)2
i=1 n(X n − μ)2
∼ χ2 (n) y ∼ χ2 (1)
σ2 σ2
entonces
  n2      12
1 (n − 1)Sn2 1
= E exp t
1 − 2t σ2 1 − 2t
es decir
     n−1
(n − 1)Sn2 1 2
1
E exp t = t<
σ2 1 − 2t 2
dicho de otra manera

n
(Xi − X n )2
i=1 (n − 1)Sn2
= ∼ χ2 (n − 1)
σ2 σ2
34 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

Demostración (Teorema 1.4.15). La demostración de este teorema se lle-


vará a cabo mediante inducción matemática sobre el tamaño de muestra.
Previamente a ella y con el fin de incluirlos en la demostración, es necesario
aprestar tres elementos a saber:

1. Si X, Y son dos variables aleatorias independientes,

cov(X, XY ) = E[Y ]V [X]

2. Si la función de densidad de una variable aleatoria X es simétrica con


respecto a E[X],

cov(X, X 2 ) = 2E[X]V [X]

3. Y finalmente las relaciones

1 
X n+1 = nX n + Xn+1
n+1
n  2
2
nSn+1 = (n − 1)Sn2 + Xn+1 − X n
n+1

En primer lugar, al ser X, Y independientes tambien lo son X 2 y Y . Por ello

cov(X, XY ) = E[X 2 Y ] − E[X]E[XY ] = E[Y ]E[X 2 ] − E[Y ](E[X])2




es decir, cov(X, XY ) = E[Y ] E[X 2 ] − (E[X])2 = E[Y ]V [X].
En segundo lugar, si la función de densidad es simétrica con respecto a E[X]

 
E (X − E[X])3 = 0 = E X 3 − 3X 2 E[X] + 3X (E[X])2 − (E[X])3


3
= E X 3 − 3E X 2 E[X] + 2 (E[X])


3
con lo cual E X 3 = 3E X 2 E[X] − 2 (E[X]) .


cov(X, X 2 ) = E X 3 − E[X]E[X 2 ]
= 3E[X 2 ]E[X] − 2 (E[X])3 − E[X]E[X 2 ]
3
= 2E[X]E[X 2] − 2 (E[X])


= 2E[X] E[X 2 ] − (E[X])2
= 2E[X]V [X]

Por último,
n
1   1

n+1
1
X n+1 = Xi = Xi + Xn+1 = nX n + Xn+1
n + 1 i=1 n + 1 i=1 n+1
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 35


n+1
 
2 n+1 2
2
nSn+1 = Xi − X n+1 = Xi − X n + X n − X n+1
i=1 i=1

n+1
 2    2 
= Xi − X n + 2 X n − X n+1 Xi − X n + X n − X n+1
i=1
 2  
n

= (n − 1)Sn2 + Xn+1 − X n + 2 X n − X n+1 Xi − X n
i=1
   2
+ 2 X n − X n+1 Xn+1 − X n + (n + 1) X n − X n+1

n 

como Xi − X n = 0,
i=1

 2  
2
nSn+1 = (n − 1)Sn2 + Xn+1 − X n + 2 X n − X n+1 Xn+1 − X n
 2
+ (n + 1) X n − X n+1
 2
= (n − 1)Sn2 + Xn+1 − X n


+ X n − X n+1 2Xn+1 + (n − 1)X n − (n + 1)X n+1

realizando los reemplazos:

1 
(n + 1)X n+1 = nX n + Xn+1 y X n − X n+1 = X n − Xn+1
n+1

 2
2
nSn+1 = (n − 1)Sn2 + Xn+1 − X n

X n − Xn+1

+ 2Xn+1 + (n − 1)X n − nX n + Xn+1
n+1

 2 Xn+1 − X n 
= (n − 1)Sn + Xn+1 − X n −
2
Xn+1 − X n
n+1
n  2
= (n − 1)Sn +
2
Xn+1 − X n
n+1

Entrando en materia, teniendo en cuenta que E[Xi ] = μ, V [Xi ] = σ 2 , para


i = 1, 2, . . . , n, al considerar una muestra de tamaño n = 2,

1  2
2 2
(X1 − X2 )
S22 = Xi − X 2 =
2 − 1 i=1 2
36 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

 
 X1 + X2 (X1 − X2 )2 1 
cov X 2 , S22 = cov , = cov X1 + X2 , (X1 − X2 )2
2 2 4
1

= cov X1 + X2 , X12 − 2X1 X2 + X22
4
1

= cov(X1 , X12 ) − 2cov(X1 , X1 X2 ) + cov X1 , X22
4
1

+ cov(X2 , X12 ) − 2cov(X2 , X1 X2 ) + cov X2 , X22
4
1
= [2E[X1 ]V [X1 ] − 2E[X2 ]V [X1 ] − 2E[X1 ]V [X2 ] + 2E[X2 ]V [X2 ]]
4
porque X1 tiene la misma distribución de X2 y además son variables indepen-
dientes,
 1
cov X 2 , S22 = 2μσ 2 − 2μσ 2 − 2μσ 2 + 2μσ 2 = 0
4


Por hipótesis de inducción cov X n , Sn2 = 0. Ahora para una muestra de
 2

tamaño n + 1, cov X n+1 , Sn+1 =Δ
 
n 1 1  2
Δ = cov Xn + Xn+1 , (n − 1)Sn2 + Xn+1 − X n
n+1 n+1 n+1
n−1  n   2 
= cov X n , Sn2 + cov X n , X n+1 − X n
n+1 (n + 1)2
n−1  1   2 
+ cov Xn+1 , Sn2 + 2
cov Xn+1 , Xn+1 − X n
n(n + 1) (n + 1)

como cov X n , Sn2 = 0 y Xn+1 , Sn2 son independientes,
 n   2 
2
cov X n+1 , Sn+1 = cov X n , X n+1 − X n
(n + 1)2
1   2 
+ cov X n+1 , X n+1 − X n
(n + 1)2

Ahora bien,
  2   2

cov X n , Xn+1 − X n 2
= cov X n , Xn+1 − 2X n Xn+1 + X n
 
2
= cov X n , Xn+1 − 2cov X n , X n Xn+1
 2

+ cov X n , X n
σ2
σ2
= −2E[Xn+1 ] + 2E X n
n n
σ2 σ2
= −2μ + 2μ =0
n n
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 37

  2   2

cov Xn+1 , Xn+1 − X n 2
= cov Xn+1 , Xn+1 − 2X n Xn+1 + X n
 
2
= cov Xn+1 , Xn+1 − 2cov Xn+1 , X n Xn+1
 2

+ cov Xn+1 , X n
= −2μσ 2 + 2μσ 2 = 0

luego
 2
n 1
cov X n+1 , Sn+1 =0 2
+0 =0
(n + 1) (n + 1)2

Demostración (Teorema 1.4.16). Similarmente al punto de partida de la


demostración del teorema 1.4.2,


n 
n

2
(Xi − Xj )2 = (Xi − X n ) − (Xj − X n )
i=1 i=1


n
Desarrollando el cuadrado allı́ indicado y como (Xi − X n ) = 0, entonces
i=1


n 
n
(Xi − Xj )2 = (Xi − X n )2 + n(Xj − X n )2
i=1 i=1

luego


n 
n 
n 
n
(Xi − Xj )2 = n (Xi − X n )2 + n (Xj − X n )2
j=1 i=1 i=1 j=1
n
= 2n (Xi − X n )2
i=1

En consecuencia

1  
n n n
1
(Xi − X n )2 = (Xi − Xj )2
n − 1 i=1 2n(n − 1) j=1 i=1

Demostración (Teorema 1.5.1). Fijando un valor particular y, se construye


la variable aleatoria dicotómica Zi = I(−∞,y] (Xi ), i = 1, 2, . . . , n.
Cada una de las variables independientes Z1 , Z2 , . . . , Zn tiene distribución de
Bernoulli con parámetro FX (y), puesto que P [Zi = 1] = P [Xi ≤ y] = FX (y).
n
Adicionalmente Zi ∼ Bin(n, FX (y)) dada la independencia citada de las
i=1

n
variables Z1 , Z2 , . . . , Zn . Zi representa al número de observaciones mues-
i=1
trales menores o iguales al valor especı́fico y.
38 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

! "

n
Como el evento {Xk,n ≤ y} es equivalente al evento Zi ≥ k , entonces la
i=1
función de distribución de la k-ésima estadı́stica de orden corresponde a
n

FXk,n (y) = P [Xk,n ≤ y] = P Zi ≥ k
i=1
n  
 n j n−j
= [FX (y)] [1 − FX (y)]
j
j=k

Demostración (Teorema 1.5.2). La primera afirmación del teorema se re-


fiere a la función de densidad de la estadı́stica Xk,n , función que corresponde
a la derivada, con respecto a los valores particulares de Xk,n , de su función de
distribución FXk,n (y). Ası́ entonces

∂ FXk,n (y + h) − FXk,n (y)


fXk,n (y) = FX (y) = lim
∂y k,n h→0 h
P [y ≤ Xk,n ≤ y + h]
= lim
h→0 h

x x+h y y+t

Por medio de la distribución multinomial se calcula la probabilidad del evento


A(h) = {y ≤ Xk,n ≤ y + h}, evento descrito como

A(h) :“(k − 1) observaciones de la muestra son menores de y, una observación


pertenece al intervalo [y, y + h] y las restantes (n − k) observaciones
son mayores que y + h ”

n! k−1 n−k
P [A(h)] = [FX (y)] [FX (y + h) − FX (y)] [1 − FX (y)]
(k − 1)!1!(n − k)!

reemplazando FX (v) por F (v), entonces

P [A(h)] n! k−1 n−k F (y + h) − F (y)


lim = [F (y)] [1 − F (y)] lim
h→0 h (k − 1)!(n − k)! h→0 h
n!
= [FX (y)]k−1 [1 − FX (y)]n−k fX (y) = fXk,n (y)
(k − 1)!(n − k)!

La segunda parte del teorema que enuncia la función conjunta de densidad de


las estadı́sticas de orden j y k, fXj,n ,Xk,n (x, y) se demuestra de manera similar.
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 39

xk,n

y+t

x x+h xj,n

Tomando Δ = fXj,n ,Xk,n (x, y) y FXj,n ,Xk,n (u, v) = F (u, v), entonces

F (x + h, y + t) − F (x, y + t) − F (x + h, y) + F (x, y)
Δ= lim
h→0,t→0 ht
P [x ≤ Xj,n ≤ x + h, y ≤ Xk,n ≤ y + t]
= lim
h→0,t→0 ht

La probabilidad del evento A(h, t) = {x ≤ Xj,n ≤ x + h, y ≤ Xk,n ≤ y + t}


igualmente se calcula por medio de la distribución multinomial.
Dicho evento está descrito como

A(h, t) :“(j − 1) observaciones pertenecen al intervalo I1 , una observación


pertenece al intervalo I2 , una observación pertenece al I4 ,
(n − k) de las observaciones pertenecen al intervalo I5
y las restantes (k − j − 1) pertenecen al intervalo I3 ”

Para su cálculo es menester disponer de la siguiente relación de probabilidades


de pertenencia de una unidad al intervalo correspondiente.

Intervalo Probabilidad
(−∞, x] = I1 FX (x) = p1
(x, x + h] = I2 FX (x + h) − FX (x) = p2
(x + h, y] = I3 FX (y) − FX (x + h) = p3
(y, y + t] = I4 FX (y + t) − FX (y) = p4
(y + t, ∞) = I5 1 − FX (y + t) = p5
40 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

luego
n! (j−1) (k−j−1) (n−k)
P [A(h, t)] = p p2 p3 p4 p5
(j − 1)!1!(k − j − 1)!1!(n − k)! 1

si c(n, j, k)[FX (x)]j−1 = B(x), FX (v) = F (v), entonces D(h, t) es

[F (x + h) − F (x)][F (y) − F (x + h)]k−j−1 [F (y + t) − F (y)][1 − F (y + t)]n−k

entonces
A(h, t) D(h, t)
lim = B(x) lim
h→0,t→0 ht h→0,t→0 ht
D(h,t)
donde lim ht corresponde a

h→0,t→0
  
F (x+h)−F (x) F (y+t)−F (y)
lim h [F (y) − F (x + h)]k−j−1 t [1 − F (y + t)]n−k
h→0,t→0
esto es
D(h, t)
lim = [fX (x)][FX (y) − FX (x)]k−j−1 [fX (y)][1 − FX (y)]n−k
h→0,t→0 ht
es decir que fXj,n ,Xk,n (x, y) es

c(n, j, k)[FX (x)]j−1 [FX (y) − FX (x)]k−j−1 [1 − FX (y)]n−k fX (y)fX (x)I(x,∞) (y)

para 1 ≤ j < k ≤ n, con c(n, j, k) = n!/[(j − 1)!(k − j − 1)!(n − k)!].


La última parte es la generalización de los casos anteriores.
Igualmente con el apoyo de la distribución multinomial y teniendo en cuenta
que la función conjunta de densidad fX1,n ,X2,n ,... ,Xn,n (y1 , y2 , . . . , yn ) es
n
1 *
lim P [yi ≤ Xi,n ≤ yi + hi ]
h1 →0,h2 →0,... ,hn →0 )
n
hi i=1
i=1

fácilmente se deduce que


n
fX1,n ,X2,n ,... ,Xn,n (y1 , y2 , . . . , yn ) = n! fX (yi ) para y1 < y2 < · · · < yn
i=1

Demostración (Teorema 1.5.3). Al igual que en una demostración anterior,


se construye la variable aleatoria dicotómica Zi = I(−∞,xp ] (Xi ), i = 1, 2, . . . , n.
Como Zi ∼ Ber(FX (xp )), considerando los eventos

A : {Xj,n ≤ xp } y B : {Xk,n > xp }

ellos son tales que P [A ∪ B] = 1, por lo tanto

P [Xj,n ≤ xp ≤ Xk,n ] = P [A ∩ B] = P [A] + P [B] − 1 = P [A] − P [B c ]


1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 41

luego
P [Xj,n ≤ xp ≤ Xk,n ] = P [Xj,n ≤ xp ] − P [Xk,n ≤ xp ]
como el evento A (similarmente el evento B) puede transcribirse como
A : “j o más observaciones son menores o iguales a xp ”, entonces
n n  
  n l
P [Xj,n ≤ xp ] = P Zi ≥ j = p (1 − p)n−l
i=1
l
l=j

por lo tanto
n  
 n  

n l n l
P [Xj,n ≤ xp ≤ Xk,n ] = p (1 − p)n−l
− p (1 − p)n−l
l l
l=j l=k

como j < k,

k−1 
n l
P [Xj,n ≤ xp ≤ Xk,n ] = p (1 − p)n−l
l
l=j

Demostración (Teorema 1.5.4). La función de distribución empı́rica puede


ser reconocida como:
n
Zi
i=1
Fn (x) = = Zn
n
siendo Zi = I(−∞,x] (Xi ) tal como se habı́a convenido en la sección referente a
la distribución de Fn (x).
Desde este punto de vista, al entenderse que Z1 , Z2 , . . . , Zn es una muestra
aleatoria de una población con distribución de Bernoulli de parámetro FX (x),
entonces el teorema de Khintchine garantiza que
p p
Zn −
→ FX (x), es decir que Fn (x) −
→ FX (x)
Demostración (Teorema 1.5.5). Puede consultarse en Probability and Sta-
tistical Inference de Robert Bartoszynski y Magdalena Niewiadomska-Bugaj
(1996) en las páginas 726 a 729.
Demostración (Teorema 1.5.6). En los términos de la demostración del teo-
rema 1.5.4 y teniendo en cuenta que
FX (x)[1 − FX (x)]
E[Fn (x)] = FX (x) y V [Fn (x)] =
n
son finitos, entonces a la luz del teorema del lı́mite central (Lindeberg-Lévy), la
sucesión {Zn }, siendo Zn ,

Fn (x) − FX (x) n[Fn ((x) − FX (x)]
Zn = √ = 
FX (1−FX (x))
√ FX (1 − FX (x))
n

converge en distribución a una variable aleatoria con distribución Normal estándar.


42 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

1.8 Ejercicios del capı́tulo


1. Demuestre que si la sucesión {Xn } converge en media cuadrática también
converge en probabilidad.
2. Demuestre que el promedio basado en una muestra de tamaño n de una
población con valor esperado μ y varianza σ 2 , converge en media cuadrática
a μ.
3. Si las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleato-
ria de una población con función de densidad,
fX (x) = 2x I(0,1) (x)
Determine la distribución muestral del mı́nimo de la muestra.
4. Continúe realizando la demostración del teorema 1.4.2
5. Si las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleato-
ria de una población con distribución Exponencial de parámetro θ, deter-
mine la distribución muestral del promedio de la muestra.
6. Si las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleato-
ria de una población con distribución Exponencial de parámetro θ, deter-
mine la distribución muestral del mı́nimo de la muestra.
7. Si las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleato-
ria de una población con distribución Uniforme en el intervalo (0, 1), de-
termine la distribución muestral del recorrido de la muestra.
8. Un dispositivo electrónico funciona a partir del funcionamiento de n com-
ponentes conectados en serie que funcionan de manera independiente. Si
el tiempo al fallar de cualquier componente se modela como una variable
aleatoria con distribución Exponencial de parámetro θ, determine el valor
esperado y la varianza del tiempo de funcionamiento del dispositivo.
9. Una muestra de 36 botellas corresponde a la lı́nea antigua de llenado A,
que estando el proceso bajo control estadı́stico el contenido de una de ellas
en ml se modela como una variable aleatoria con distribución Normal de
valor esperado μ y desviación estándar 12; igualmente se considera otra
muestra de 49 botellas de la nueva lı́nea de llenado B, que similarmente
estando el proceso bajo control estadı́stico el contenido de una de ellas
se modela como una variable aleatoria con distribución Normal de valor
esperado μ y desviación estándar 4. Determine la probabilidad de que los
promedios muestrales difieran a lo sumo en 3 ml.
10. En el laboratorio de control de calidad de una compañı́a que produce ele-
mentos para cierto tipo de retroproyector, se encienden simultáneamente
n bombillas. Utilizando el modelo Exponencial para describir el tiempo
de vida de la bombilla, determine el valor esperado del tiempo de vida de
la tercera bombilla en fallar.
1.8. EJERCICIOS DEL CAPÍTULO 43

11. El exámen de admisión de la Universidad Nacional de Colombia tiene un


tiempo lı́mite de dos horas y media y dentro de sus normas se establece
que ningún aspirante puede retirarse del aula antes de haber transcurrido
una hora de examen. Podrı́a pensarse que el modelo para simbolizar el
tiempo de permanencia del aspirante en el aula serı́a el modelo Exponen-
cial doblemente truncado. Sin embargo una buena elección la constituye
el modelo Exponencial desplazado. Teniendo en cuenta que el tiempo
medio de permanencia es de dos horas, ¿Cuál es la probabilidad de que el
docente que vigila el examen, en un aula con 25 aspirantes, no tenga que
pronunciar la frase: “Por favor suspendan porque el tiempo de examen ha
concluido”?.
La función de densidad de una variable aleatoria X con distribución Ex-
ponencial desplazada con parámetro θ = (θ1 , θ2 ), θ1 ∈ R, θ2 > 0, es:
 
1 −(x − θ1 )
fX (x, θ) = exp I(θ1 ,∞) (x)
θ2 θ2

12. Con referencia al ejercicio anterior, ¿Cuál es el tiempo medio de perma-


nencia en el aula del aspirante que se retira en primer lugar?.
13. Igualmente con referencia al ejercicio 11, ¿Cómo cambia la respuesta al
mismo y cómo cambia la respuesta al ejercicio 12, si se adopta el modelo
de Pareto?.
La función de densidad de una variable aleatoria X con distribución de
Pareto con parámetro θ = (θ1 , θ2 ), θ1 > 0, θ2 > 0, es:
 
θ2 θ1θ2
fX (x, θ) = I(θ1 ,∞) (x)
xθ2 +1

14. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-


ria de una población con función de distribución absolutamente continua,
¿Cuál es la probabilidad de que el máximo de la muestra exceda a la
mediana poblacional?.
15. Si las variables aleatorias X1 , X2 , . . . , Xn , tienen la misma varianza y si la
correlación entre cualquier par de variables tiene el mismo valor, demuestre
que dicha correlación tiene como cota inferior a −1/(n − 1).
16. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una población con distribución de Bernoulli de parámetro θ, deter-
n
mine la probabilidad de que X1 = 1 dado que Xi = j, j = 1, 2, . . . , n.
i=1

17. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-


ria de una población con distribución de Poisson con parámetro θ, de-
muestre que para cualquier entero positivo k, k ≤ n, la distribución

n
condicional de X1 , X2 , . . . , Xn dado que Xi = k, corresponde a una
i=1
distribución multinomial.
44 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

18. Un procedimiento de control estadı́stico de calidad establece para cierto


proceso de fabricación, la selección de manera aleatoria y sin reemplazo de
cinco amortiguadores de un lote de inspección que contiene seis de clase
A y ocho de clase B, para ser examinados en el laboratorio. Si X 5 es
la proporción muestral de amortiguadores de clase A, determine el valor
esperado y la varianza de dicha estadı́stica.
19. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una población con distribución Binomial negativa de parámetros k

n
y π, determine la distribución muestral de la estadı́stica Tn = Xi .
i=1

20. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-


ria de una población con valor esperado μ y varianza 4, determine el
tamaño mı́nimo de la muestra para el cual la probabilidad de que el
valor esperado y el promedio de la muestra no difieran en más de 0.1,
sea superior a 0.95.
21. Con referencia al ejercicio anterior, ¿Cuál debe ser el tamaño de la muestra,
si la varianza fuese el doble?.
22. La fracción de baldosas de cerámica con imperfectos producidas por una
compañı́a, es del 0.8% cuando el proceso está bajo control estadı́stico.
Determine el tamaño de muestra mı́nimo para el cual la probabilidad de
que la fracción con imperfectos y la proporción de baldosas con imperfectos
en la muestra no difieran en más del 1%, sea superior a 0.95.
23. Una norma particular de metrologı́a determina que deben realizarse 36
mediciones de la emisión de ondas de un horno de microondas. El equipo
debe estar calibrado de tal forma que la variabilidad en cada medición,
cuantificada por medio de la desviación estándar es de σ unidades. Utilice
la desigualdad de Chevyshev y el teorema del lı́mite central en forma
comparativa, para establecer el valor mı́nimo de la probabilidad de que el
promedio de las mediciones difiera a lo sumo del verdadero valor promedio
en σ5 unidades. ¿Cuál es la razón de la diferencia de los resultados?.
24. Con referencia al ejercicio anterior, también utilizando en forma
comparativa la desigualdad de Chevyshev y el teorema del lı́mite cen-
tral, determine cuál debe ser el número de mediciones para que el valor
mı́nimo de la probabilidad de que el promedio de las mediciones difiera a
lo sumo del verdadero valor promedio en σ6 unidades, sea de 0.95. ¿Cuál
es la razón de la diferencia de los resultados?.
25. Un procedimiento de control estadı́stico de calidad ha establecido para la
inspección del proceso de elaboración de láminas de madera aglomerada,
un tamaño de muestra de 125 láminas. Si además se ha reconocido que
el modelo de Poisson de parámetro 3 es un buen modelo para describir
el número de defectos por lámina, determine la probabilidad de que el
promedio de defectos por lámina en la muestra sea menor de 2.
1.8. EJERCICIOS DEL CAPÍTULO 45

26. Siendo dos minutos y cuarenta y cinco segundos el tiempo medio de


transacción en un cajero electrónico y que el modelo Exponencial es un
modelo admisible para representar el tiempo que utiliza un cliente en la
transacción, determine la probabilidad de que se requieran más de 55
minutos para atender una cola de 16 clientes, pues la persona que ocupa
el puesto 16 debe decidir si espera o no, en razón a que cuenta únicamente
con los citados 55 minutos para realizar la diligencia.

27. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-


ria de una población con distribución de Bernoulli de parámetro θ, ¿Cuál
es la distribución conjunta de X1 , X2 , . . . , Xn y cuál es la distribución de

n
la estadı́stica Xi ?.
i=1

28. En el perı́odo preelectoral de la elección presidencial del año 2002 en


Colombia, los estimativos del favoritismo del candidato en definitiva elegi-
do estuvieron persistentemente cerca del 52%. ¿Con cuál tamaño de mues-
tra se hubiese podido predecir que no habrı́a segunda vuelta, suponiendo
como cierta la información que se disponı́a en ese momento y adoptando
una probabilidad del 95%?.

29. El tercer momento central es un elemento ligado a la descripción de la


simetrı́a de la función de densidad de una variable aleatoria. ¿Qué puede
afirmarse de la simetrı́a de la función de densidad del promedio de una
muestra de una población con distribución de Bernoulli de parámetro θ,
cuando el tamaño de la muestra crece?.

30. Determine el valor esperado y la varianza de la desviación estándar de


una muestra aleatoria de una población con distribución normal de valor
esperado μ y varianza σ 2 .

31. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-


ria de una población con función de densidad,
1
fX (x) = I{1,2,... ,k} (x)
k
determine el valor esperado del semirango de la muestra.

32. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-


ria de una población con valor esperado μ y varianza finitos, muestre que
las estadı́sticas,
2 n
• iXi
n(n + 1) i=1
6 n
• i 2 Xi
n(n + 1)(2n + 1) i=1
convergen en probabilidad a μ.
46 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES

33. Si las variables X1 , X2 , . . . , constituyen una sucesión de variables aleato-


rias, tales que P [Xi = i] = P [Xi = −i] = 12 , entonces E[Xi ] = μ = 0,
n X
i
i = 1, 2, . . . . Muestre que no converge en probabilidad a μ = 0.
i=1 n
34. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una población con distribución Uniforme en el intervalo (0, θ),
muestre que el máximo de la muestra converge en probabilidad a θ.
35. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una población con
mediana θ, muestre que la mediana de la muestra converge en probabilidad
a θ.
36. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una población con distribución Uniforme en el intervalo (0, 1), de-
termine el valor al cual la media geométrica de la muestra Gn converge en
probabilidad.
+
, n
,
Gn = - n
Xi
i=1

37. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-


ria de una población con distribución Exponencial con parámetro θ, muestre
que la variable aleatoria,
√  d
Qn = n θX n − 1 − → Z ∼ N (0, 1)

38. La cantidad de café molido que se empaca en bolsas de 500 gr mediante


un proceso que estando bajo control estadı́stico, puede modelarse como
una variable aleatoria con valor esperado 500 y desviación estándar 10.
Con base en una muestra de 100 bolsas determine la probabilidad de que
el promedio de la muestra esté entre 495 gr y 504 gr.
39. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una problación con distribución de Bernoulli de parámetro θ, muestre
que la estadı́stica,

Xn − θ
Qn = . 
X n 1 − X n /n

converge en distribución a una variable aleatoria con distribución Normal


estándar.
40. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una problación con distribución de Poisson de parámetro θ, muestre
que
 p
exp −X n − → P [X1 = 0]
1.8. EJERCICIOS DEL CAPÍTULO 47

41. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-


ria de una población con función de densidad,

fX (x) = x exp(−x) I(0,∞) (x)




determine el valor de la constante d, tal que P X n > d = 0.95.
42. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una población con función de densidad,

fX (x) = 12x2 (1 − x) I(0,1) (x)


 

n
determine el valor del tamaño de muestra tal que P Xi > 4
5n ≤ 0.05.
i=1

43. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-


ción Uniforme en el intervalo (0, θ). Determine la función de distribución
de la variable aleatoria Wn = n(θ − Xn,n ). ¿Cómo se distribuye la variable
aleatoria a la cual la sucesión W1 , W2 , . . . , Wn , . . . converge en distribu-
ción?.
48 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES
Capı́tulo 2

ESTIMACIÓN PUNTUAL
DE PARÁMETROS

La primera sección del capı́tulo anterior mencionó que los modelos son elementos
conexos con los quehaceres de la Ciencia. De ı́ndole diferente y con propósitos
distintos, los modelos son artificios que cooperan en la descripción y explicación
de la realidad al representarla de una manera muy peculiar, que posibilitan
descripciones y explicaciones generales o minuciosas, según sea el propósito.
Entre otras funciones, el modelo subsume en una especie de ideograma, una
variedad de casos similares. Como modelo especial el modelo probabilı́stico,
por su parte, simboliza mediante una expresión algebraica el comportamiento
genérico de variables que aluden mediciones, conteos, o valoraciones de unidades
estadı́sticas; pero igualmente el modelo probabilı́stico puede entenderse como la
representación del compendio de situaciones individuales, es decir constituye
una familia de modelos particulares de la misma naturaleza, modelos que se
pueden singularizar determinando valores especı́ficos de los parámetros, aquellas
constantes que son elementos integrantes del modelo.
El vocablo puntual, que adjetiva la estimación motivo de este capı́tulo, tiene
en el Castellano varias acepciones. El sentido que se le debe otorgar dentro del
contexto de la Inferencia estadı́stica es el de perteneciente o relativo al punto,
por tratarse de la estimación de un parámetro por medio de un valor particular
de una estadı́stica, un punto del recorrido de ella, y también para distinguirla
de otra forma de estimación, la estimación por intervalo; por ello es que algunos
traductores utilizan la expresión de estimación de punto.
En ese sentido la estimación puntual de los parámetros puede interpretarse
como la adopción de un modelo individual elegido dentro de una familia, para
representar una realidad particular, elección fruto de la tasación de los respec-
tivos parámetros por medio de un cálculo realizado con los valores observados de
la muestra aleatoria, a través de la expresión que define la estadı́stica facultada
como estimador.
La finalidad de este capı́tulo es la exposición de algunos criterios que per-

49
50 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

miten estudiar el desempeño de estadı́sticas propuestas como estimadores, cri-


terios que como consecuencia son algunos de los principios que facultan defini-
tivamente a una estadı́stica para desempeñarse como estimador. La estadı́stica
propuesta, o en examen, es habitualmente producto de la utilización de un
método de construcción de estimadores. La parte inicial del capı́tulo está dedi-
cada a la presentación e ilustración de los métodos más corrientes en la construc-
ción de estimadores y la segunda parte substancial del capı́tulo está dedicada al
estudio de esos criterios evaluativos de un estimador.
Como ya se ha venido insinuando, se acude al concepto de variable aleato-
ria para representar una variable de interés que corresponde a la respuesta de
cualquier unidad estadı́stica, variable que al denotarse como X, su función de
densidad 1 , su función de distribución, su función generatriz de momentos y su
función caracterı́stica serán escritas casi siempre y de ahora en adelante como,
fX (x, θ), FX (x, θ), MX (t, θ) y φX (t, θ) respectivamente, para enfatizar el hecho
de que las funciones asociadas al modelo asumido como modelo poblacional de-
penden, además de los valores para los cuales existen las mencionadas funciones,
de las constantes inherentes al modelo dispuestas en el vector de k componentes
θ = (θ1 , θ2 , . . . , θk ) . La finalidad de la estimación puntual de parámetros es
estimar de la manera más eficiente los componentes del vector o una función
r(θ) del mismo, a partir de la información disponible en la muestra.
Como preámbulo de la primera sección concerniente a los métodos tradi-
cionales de construcción de estimadores, se presenta la definición inicial para la
aprehensión de los elementos conceptuales integrantes del proceso de estimación
estadı́stica.

Definición 2.0.1. Siendo X una variable aleatoria cuya función de densidad


es fX (x, θ), se denomina espacio del parámetro al conjunto de todos los
posibles valores de los componentes del vector θ, denotado como Θ, Θ ⊆ Rk

Ejemplo 2.0.1. El modelo Uniforme es un modelo apto para emular vari-


ables que se distinguen por presentar frecuencias indiferentes para sus distintos
valores. Considerando la variable aleatoria X con distribución Uniforme en el
intervalo (0, θ), es evidente a partir de su función de densidad,

1
fX (x, θ) = I(0,θ) (x)
θ
que el cero es una frontera fija y que el parámetro θ se desempeña como la
frontera superior del recorrido de la variable, el cual asume un valor especı́fico
ante una situación también especı́fica. En este caso el parámetro θ es un real
positivo, por consiguiente, el espacio del parámetro es el conjunto:

Θ = {θ|θ > 0}
1 Este texto, con el objeto de simplificar el lenguaje, utiliza la expresión función de densidad

para referirse a la función de densidad de una variable aleatoria continua, a la función de masa,
de probabilidad o de cuantı́a de una variable aleatoria discreta. El contexto de su utilización
revelará el tipo de variable en referencia o se precisará cuando sea requerido.
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 51

Ejemplo 2.0.2. El modelo Gaussiano comentado y utilizado profusamente


representa variables cuyas frecuencias, con marcada simetrı́a, resaltan los valores
intermedios y marginan los valores inferiores y superiores. Como es conocido son
muchas las variables factibles de ser abstraı́das por este modelo. Considerando
la variable aleatoria X con distribución Normal de valor esperado θ1 y varianza
θ2 , es sabido que θ1 se desempeña como punto de simetrı́a de su función de
densidad
2
1 1 (x−θ1 )
fX (x, θ) = √ √ e− 2 θ2
2π θ2

y θ2 regula su grado de apuntamiento como consecuencia de su dispersión. El


modelo admite cualquier real como punto de simetrı́a, mientras que exige un
valor positivo para θ2 ; por consiguiente, el espacio del parámetro es el conjunto
Θ = {θ1 , θ2 |θ1 ∈ R, θ2 > 0}
θ2

θ1

2.1 Métodos clásicos para construir estimadores


2.1.1 El método de máxima verosimilitud
Con la denominación de método de máxima verosimilitud resultado de
una amplia aceptación de la traducción por verosimilitud del término inglés
likelihood, es el método de construcción de estimadores más difundido y tal
vez más utilizado, aunque en forma muy particular ya habı́a sido concebido y
empleado por Gauss, se debe realmente a Fisher quien lo hizo público en la
primera década del siglo XX. Por su fundamento y por producir estimadores
que poseen propiedades especiales, propiedades que se estudiarán más adelante
se convierte en un método con atractivos propios.

Definición 2.1.1. Siendo X1 , X2 , . . . , Xn una sucesión de variables aleatorias


idénticamente distribuidas pero no necesariamente independientes, la función
conjunta de densidad de X1 , X2 , . . . , Xn se conoce con el nombre de función
de verosimilitud de X1 , X2 , . . . , Xn .
52 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Definición 2.1.2. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


con función de densidad fX (x, θ), θ ∈ Θ, la función de verosimilitud de la
muestra se denota y corresponde a:
n
L(θ; x1 , x2 , . . . , xn ) = fX (xi , θ)
i=1

Acudiendo nuevamente a la primera sección del capı́tulo anterior para


tener presente el sentido semántico que allı́ se aclaró, donde estimar significa la
realización formal de un avalúo, como proceso expreso, preciso y determinado
que exige contar con información, los valores particulares x1 , x2 , . . . , xn , valores
ya observados de las variables constituyentes de la muestra aleatoria, son el
acervo de información con el cual se cuenta una vez haya concluido el acopio y
registro de la misma en el estudio o investigación particular. En consecuencia
dichos valores pueden asumirse como fijos en la función de verosimilitud y es
por eso que en muchos textos se le considera como función de θ exclusivamente
y suele expresarse como L(θ). Este texto utilizará en algunas oportunidades la
expresión condensada L(θ) o simplemente L a cambio de L(θ; x1 , x2 , . . . , xn ).

Definición 2.1.3. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


con función de densidad fX (x, θ), θ ∈ Θ, el estimador T = t(X1 , X2 , . . . , Xn )
se dice que es el estimador máximo-verosı́mil de θ (MLE de θ, conservando
las siglas inglesas), si el valor particular de t = t(x1 , x2 , . . . , xn ) es tal que el
supremum de L,

sup{L(θ)|θ ∈ Θ}

se consigue cuando θ = t, en cuyo caso t se denomina estimación máximo-


verosı́mil de θ.

El derrotero de la estimación máximo-verosı́mil puede percibirse inicialmente


a través del siguiente ejemplo.

Ejemplo 2.1.1. Como parte de una estrategia de mercadeo, una marca de


pilas obsequia a la persona que presente 10 pilas usadas impresas con el rótulo
de promoción “sello de oro”, un paquete de cuatro pilas nuevas. Para imprimir
en las pilas el rótulo se dispone de una máquina rotuladora que tiene tres niveles:
alto, medio y bajo; la máquina estampa aleatoriamente el rótulo promocional
en el nivel alto, medio y bajo respectivamente al 75%, 50% y 25% de las pilas.
El comité ejecutivo de la empresa, basado en la información de las ventas,
determina el nivel en que debe operar la rotuladora en un periodo determinado.
Un comprador de un paquete desea estimar el nivel en el cual está operando la
rotuladora. Para ello construye la tabla 2.1 basado en que el número de pilas
rotuladas como “sello de oro”en un paquete de cuatro se puede modelar como
una variable aleatoria X distribuida binomialmente con n = 4 y probabilidad
de éxito θ. En este caso particular el espacio del parámetro es Θ = { 14 , 12 , 34 }.
Si el comprador sólo dispone de un paquete de cuatro pilas para inferir el nivel
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 53

de la rotuladora, sus estimaciones máximo-verosı́miles serán:


1
o equivalentemente nivel bajo, si x = 0 o si x = 1
4
1
o equivalentemente nivel medio, si x = 2
2
3
o equivalentemente nivel alto, si x = 3 o si x = 4
4

x
θ 0 1 2 3 4
1
4 0.316406 0.421875 0.210938 0.046875 0.003906
1
2 0.062500 0.250000 0.375000 0.250000 0.062500
3
4 0.003906 0.046875 0.210938 0.421875 0.316406

Tabla 2.1: Tabla de compilación de valores de una función de densidad Binomial


con n = 4 y probabilidad de éxito θ

justamente porque para un valor especı́fico x, la estimación corresponde a aque-


lla donde la probabilidad es máxima.
El éxito de la promoción fue tal que una compañı́a de gaseosas acudió a la misma
estrategia, obsequiando una canasta de 30 unidades a la persona que presente
75 tapas con la leyenda “Apaga gratis tu sed”. A diferencia de la anterior, la
rotuladora de la compañı́a de gaseosas tiene la particularidad de que el nivel de
estampación se puede ajustar a cualquier porcentaje. Igualmente a partir del
número de botellas cuyas tapas contienen la leyenda de la promoción en una
canasta de 30 unidades, un comprador de una canasta desea estimar el nivel en
el cual está operando la rotuladora.
Para este caso ya no es posible construir una tabla como la tabla 2.1, porque
el espacio del parámetro es un conjunto infinito, Θ = {θ|0 < θ < 1}. Se po-
drı́a construir una tabla similar bajo una selección de valores particulares de
θ, entonces, denotando como X: número de botellas cuyas tapas contienen la
leyenda promocional en una canasta de 30 unidades, los valores de la función
 
30 x
L(θ) = P [X = x] = θ (1 − θ)30−x
x
vistos como los componentes de una fila en una tabla similar a la tabla 2.1,
son los valores de una función de densidad para un valor especı́fico de θ. Una
columna de una tabla construida con algunos valores de θ, estarı́a constituida
por un conjunto de valores de funciones de densidad calculados con distintos
valores del parámetro θ y fijo el valor de x. Leı́da verticalmente esta tabla,
54 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

mostrarı́a el máximo del citado conjunto, la mayor probabilidad, indicativa de


que su correspondiente valor de θ es el valor más verosı́mil bajo las condiciones
mencionadas.
Como para efectos de esta estimación no existe la posibilidad de elegir valores
particulares del parámetro, se acude al Cálculo diferencial y en esta forma el
valor de θ para el cual L(θ) sea máxima corresponde al valor más verosı́mil del
nivel de estampación. Por ejemplo, si en una canasta se encuentran seis botellas
cuyas tapas están marcadas con la leyenda promocional,
 
30 6
L(θ) = P [X = 6] = θ (1 − θ)24
6

función cuya primera derivada es


 
30
5
L (θ) = 6θ (1 − θ)2 4 − 24θ6 (1 − θ)2 3
6

derivada que es nula cuando θ = 15 , y en ese punto la función L(θ) tiene máximo,
lo cual significa que el valor más verosı́mil del nivel de estampación es del 20%,
cuando se dispone únicamente de la información relativa a una canasta que
contiene seis unidades premiadas.

El anterior y los cuatro ejemplos siguientes, a la luz de la definición 2.1.3


mencionan el máximo de un conjunto o función, teniendo en cuenta que cuando
un conjunto posee máximo, el cual pertenece al conjunto, el supremum de dicho
conjunto es el mismo máximo.

Lema 2.1.1. Si t hace máxima a L(θ), t igualmente hace máximo a ln L(θ)

Ejemplo 2.1.2. Se toma una muestra de tamaño tres de una población con
distribución de Poisson de parámetro θ cuyos los resultados son, x1 = 2, x2 = 0,
x3 = 5. Determinar la estimación máximo-verosı́mil de θ.
 2 −θ   0 −θ   5 −θ 
θ e θ e θ e θ7 e−3θ
L(θ) = =
2! 0! 5! 2!5!
1

L (θ) = 7θ6 e−3θ − 3θ7 e−3θ
2!5!

L (θ) = 0 cuando θ = 0 o cuando θ = 73 . Luego, la estimación máximo-verosı́mil


de θ es 73 , el valor θ = 0 no es un valor admisible por el modelo de Poisson porque

θ ∈ Θ = {θ|θ > 0}

Ejemplo 2.1.3. Determinar el MLE de θ a partir de una muestra aleatoria


X1 , X2 , . . . , Xn de una población con función de densidad

fX (x, θ) = θx (1 − θ)1−x I{0,1} (x), θ ∈ Θ = {θ|θ ∈ (0, 1)}


2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 55

L(θ; x1 , x2 , . . . , xn ) = θx1 (1 − θ)1−x1 θx2 (1 − θ)1−x2 . . . θxn (1 − θ)1−xn


n n
xi n− xi
= θi=1 (1 − θ) i=1
n
 
n
ln L(θ; x1 , x2 , . . . , xn ) = xi ln θ + n − xi ln(1 − θ)
i=1 i=1

n 
n
xi n− xi
∂ i=1 i=1
ln L(θ; x1 , x2 , . . . , xn ) = −
∂θ θ 1−θ
n 
n
xi n− xi
∂2 i=1 i=1
ln L(θ; x1 , x2 , . . . , xn ) = − − <0
∂θ2 θ2 (1 − θ)2

lo cual garantiza la existencia del máximo de la función ln(L(θ; x1 , x2 , . . . , xn )).


Luego ln L(θ) tiene máximo cuando


n 
n
xi n− xi
i=1 i=1
=
θ 1−θ

o de otra manera cuando

1 n
−1= 
n −1
θ
xi
i=1

1

n
entonces ln L(θ) tiene máximo en θ = n xi . Es decir, el estimador máximo-
i=1
verosı́mil de θ es X n , llamado en este caso proporción muestral .

Ejemplo 2.1.4. Determinar el MLE de θ a partir de una muestra aleatoria


X1 , X2 , . . . , Xn de una población con función de densidad

e−θ θx
fX (x, θ) = I{0,1,2,... } (x), θ ∈ Θ = {θ|θ > 0}
x!
56 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

    
e−θ θx1 e−θ θx2 e−θ θxn
L(θ; x1 , x2 , . . . , xn ) = ...
x1 ! x2 ! xn !
n
xi
−nθ
e θi=1
= )
n
xi !
i=1
n
 n
ln L(θ; x1 , x2 , . . . , xn ) = xi ln θ − nθ − ln xi !
i=1 i=1

n
xi
∂ i=1
ln L(θ; x1 , x2 , . . . , xn ) = −n
∂θ θ
n
xi
∂2 i=1
ln L(θ; x1 , x2 , . . . , xn ) = − <0
∂θ2 θ2
con lo cual se garantiza la existencia del máximo de ln L(θ; x1 , x2 , . . . , xn ) en

n 
n
θ = n1 xi , es decir el MLE de θ es n1 Xi .
i=1 i=1

Ejemplo 2.1.5. Determinar el MLE de θ a partir de una muestra aleatoria


X1 , X2 , . . . , Xn de una población con función de densidad
fX (x, θ) = θxθ−1 I(0,1) (x), θ ∈ Θ = {θ|θ > 0}
Como en los casos anteriores al hacer uso del Cálculo diferencial se deduce que
el MLE de θ es
n
− n 
)
ln Xi
i=1

Es evidente el respaldo que el Cálculo diferencial prestó para la construcción


de los estimadores máximo-verosı́miles en los ejemplos anteriores, tratándose de
la herramienta matemática central del procedimiento, pues la consecución de
estimadores de esta naturaleza es en sı́ uno de los denominados problemas de
máximos y mı́nimos. Sin embargo, no siempre es pertinente la utilización de
esta herramienta, por ejemplo en un caso particular en el cual la función de
verosimilitud no sea diferenciable. Los siguientes ejemplos muestran una forma
alternativa de encontrar un MLE.
Ejemplo 2.1.6. Determinar el MLE de θ a partir de una muestra aleatoria
X1 , X2 , . . . , Xn de una población con función de densidad
fX (x, θ) = I[θ− 12 ,θ+ 12 ] (x), θ ∈ Θ = {θ|θ ∈ R}

n
L(θ; x1 , x2 , . . . , xn ) = I[θ− 12 ,θ+ 12 ] (xi )
i=1
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 57

fX (x, θ)

| | |

θ− 1
2 θ θ+ 1
2
x

Figura 2.1: Gráfica de la función de densidad correspondiente al ejemplo 2.1.6

como θ − 1
2 ≤ xi ≤ θ + 12 , i = 1, 2, . . . , n entonces

1 1
θ− ≤ xi implica θ ≤ xi +
2 2
1 1
y θ + ≥ xi implica θ ≥ xi −
2 2
luego xi − 1
2 ≤ θ ≤ xi + 1
2 para i = 1, 2, . . . , n, particularmente

1 1
xn,n − ≤ θ ≤ x1,n +
2 2
de tal manera que la función de verosimilitud se puede expresar como

L(θ) = I[xn,n − 12 ,x1,n + 12 ] (θ)

L(θ)

| | |

xn,n − 1
2 x1,n + 1
2 θ

Figura 2.2: Gráfica de la función de verosimilitud correspondiente al ejemplo


2.1.6

Como se deduce de la figura 2.2, cualquier valor entre xn,n − 12 y x1,n + 12 hace
máxima la función de verosimilitud. Como el papel que desempeña el parámetro
58 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

es la determinación de la posición de la función de densidad, que coincide con


el centro del recorrido de la variable, es razonable asumir como MLE de θ a
X1,n + Xn,n
2
Ejemplo 2.1.7. Determinar el MLE de θ a partir de una muestra aleatoria
X1 , X2 , . . . , Xn de una población con función de densidad
1
fX (x, θ) = I(0,θ) (x), θ ∈ Θ = {θ|θ > 0}
θ

 n n
1
L(θ; x1 , x2 , . . . , xn ) = I(0,θ) (xi )
θ i=1

Como 0 < xi < θ, en particular xn,n < θ, luego


 n
1
L(θ; x1 , x2 , . . . , xn ) = I(xn,n ,∞) (θ)
θ
 n
1
El estimador máximo-verosı́mil de θ es Xn,n , porque el sup(L(θ)) = xn,n .

L(θ)

xn,n θ

Figura 2.3: Gráfica de la función de verosimilitud correspondiente al ejemplo


2.1.7

Teorema 2.1.1 (Principio de invarianza de un MLE). Si X1 , X2 , . . . , Xn


es una muestra aleatoria de una población con función de densidad fX (x, θ),
Tn = t(X1 , X2 , . . . , Xn ) un MLE de θ, θ ∈ Θ, Θ ⊆ R, y si r(θ) es una función
uno a uno, entonces r(Tn ) es el estimador máximo-verosı́mil de la imágen de θ
bajo la función r.
De manera más general, este principio de invarianza de los estimadores
máximo-verosı́miles, se puede enunciar como lo establece el siguiente teorema.
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 59

 
(1) (2) (k)
Teorema 2.1.2. Siendo Tn = Tn , Tn , . . . , Tn un MLE de θ, donde
(j)
Tn = tj (X1 , X2 , . . . , Xn ) para cualquier 1 ≤ j ≤ k, un estimador basado
en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densi-
dad fX (x, θ), θ = (θ1 , θ2 , . . . , θk ) . Si la función r(θ) = (r1 (θ), r2 (θ), . . . , rl (θ)),
1 ≤ l ≤ k entonces el MLE de la imágen de θ bajo r es

(r1 (Tn ), r2 (Tn ), . . . , rl (Tn ))

Ejemplo 2.1.8 (Estimación en muestras censuradas). Para concluir el


tema del método de máxima verosimilitud, se presenta una breve alusión a
las muestras censuradas. En algunas aplicaciones como las relacionadas con los
ensayos clı́nicos, con el análisis de sobrevivencia o con algunas investigaciones de
laboratorio, el acopio de la información pertinente consiste en obtener el valor
de la medición del tiempo de duración de algún evento vital o biológico de cada
una de las n unidades estadı́sticas elegidas como tamaño de muestra, sólo que
al finalizar el tiempo t establecido para el estudio, k < n de las unidades presen-
tan valores en la duración inferiores a t, porque las (n − k) unidades restantes
superaron el tiempo establecido pero a causa de la finalización del estudio no
se conocen con exactitud sus valores. También se presentan situaciones en las
cuales el estudio finaliza cuando únicamente k ≤ n de las unidades estadı́sticas
hayan concluido su observación, faltando las restantes (n − k) unidades. En
cualquiera de las dos situaciones se habla de una muestra censurada.
Cuando t se ha establecido como un tiempo fijo, k representada por la variable
K puede entenderse como una variable aleatoria y se habla en este caso de una
muestra censurada del tipo I . Si el número de unidades k necesario para
concluir el estudio se fija de antemano y el tiempo correspondiente t represen-
tado por la variable T es considerado como una variable aleatoria, entonces la
muestra recibe el nombre de muestra censurada del tipo II .
Siendo X la variable aleatoria que representa la duración del evento vital o
biológico de cualquier unidad estadı́stica, el valor x1,n representa la duración
de la unidad con menor valor, x2,n representa la duración de la unidad con el
siguiente valor, y ası́ sucesivamente hasta xk,n que representa la duración de la
última unidad con mayor duración inferior al tiempo t. Las restantes (n − k)
unidades, tienen una duración mayor al tiempo t, duración que no se puede
establecer por la culminación del acopio la de información del estudio.
Considerando como objeto una muestra aleatoria censurada del tipo II, fijando
los valores de k y n, como también asumiendo el modelo del tipo Exponen-
cial para representar la duración del evento como la variable aleatoria X, con
función de densidad,

1 −x
fX (x, θ) = e θ I(0,∞) (x)
θ

se busca estimar el parámetro θ, bajo estas condiciones. Para determinar un


estimador máximo-verosı́mil del parámetro, la función de verosimilitud acorde
60 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

con el tipo de muestra, está constituida por el producto de dos factores:


k n xk,n
n! 1 − xi,n
e θ y e− θ
(n − k)! i=1 θ
i=k+1

El primer factor es la parte de la función de verosimilitud correspondiente a las


k unidades con duración inferior al tiempo de corte; la presencia del coeficiente
n!
del producto de densidades radica en el hecho de que hay (n−k)! formas de
tener k unidades de un total de n con tiempos inferiores al citado corte, por
tratarse de k-uplas ordenadas sin repetición. El segundo factor corresponde a
la probabilidad de que (n − k) unidades tengan una duración superior a xk,n
x
debido a que P [X > x] = e− θ . De esta manera la función de verosimilitud de
las n variables aleatorias es:
k n xk,n
n! 1 − xi,n
L(θ; x1 , x2 , . . . , xn ) = e θ e− θ =L
(n − k)! i=1 θ
i=k+1

     
1
k k
n! 1 (n − k)xk,n
L= exp − xi,n exp −
(n − k)! θ θ i=1 θ
    k 
1 
k
n! 1
L= exp − xi,n + (n − k)xk,n
(n − k)! θ θ i=1

Procediendo de la manera usual se puede deducir que el MLE de θ con base en


una muestra aleatoria censurada del tipo II bajo este modelo Exponencial es


k
Xi,n + (n − k)Xk,n
i=1
Tn =
k
Por supuesto si se asume otro modelo para describir la duración del evento vital
o biológico, la determinación del correspondiente MLE dependerá del referido
modelo, pero el bosquejo aquı́ presentado se mantiene.
Nota. La denominada función de verosimilitud en el ejemplo anterior referente
a una estimación en una muestra censurada, no es una función de verosimili-
tud estrictamente hablando. Es una función de cuasiverosimilitud, cuyo
máximo reside en una estimación cuasimáximo-verosı́mil. Precisamente
para denotar a un estimador de esta naturaleza, se utiliza la sigla QMLE (qua-
si maximum likelihood estimator). Incorrectas funciones de verosimilitud
son propias de situaciones cuando la función de verosimilitud es supremamente
complicada, cuando hay presencia de datos censurados, cuando se realizan al-
gunos estudios basados en simulación o cuando se requiere de excesivo cómputo
estadı́stico para determinar una estimación máximo-verosı́mil y se acude a una
función de cuasiverosimilitud para simplificarlo.
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 61

2.1.2 El método de los momentos


Antes de la divulgación del método de máxima verosimilitud, surgió el método
más antiguo de construcción de estimadores, denominado el método de los
momentos, que fue propuesto y utilizado por Pearson a finales del siglo XIX.
En casi todos los textos se le describe como un método que deduce los esti-
madores por medio de un eje consistente en igualdades algebraicas de momentos
muestrales con momentos poblacionales. Este texto sin apartarse radicalmente
del proceso tradicional, fundamenta el método y por lo tanto su procedimiento
en la convergencia en probabilidad de los momentos muestrales a sus respec-
tivos momentos poblacionales. Antes de exponer la idea del método es preciso
hacer referencia a dos teoremas que auxilian la fundamentación de método y su
aplicación.
(j)
Teorema 2.1.3. Considerando las variables aleatorias Xn , Xj , j = 1, 2, . . . , k,
(1) (2) (k)
y la función g : Rk −→ R continua, tal que tanto g(Xn , Xn , . . . , Xn ) como
(j) p
g(X1 , X2 , . . . , Xn ) sean variables aleatorias, entonces si Xn − → Xj implica que
p
g(Xn(1) , Xn(2) , . . . , Xn(k) ) −
→ g(X1 , X2 , . . . , Xn )
p p
Corolario 2.1.3.1. Si Xn −
→ X y Wn −
→ W entonces
p
1. Xn + Wn −
→X +W
p
2. Xn Wn −
→ XW
p
3. aXn + bWn −
→ aX + bW ; a, b constantes
p
4. Xn
Wn −
→ X
W ; P [Wn = 0] = P [W = 0] = 1
p
5. Xn2 −
→ X2
p
6. 1
Xn −
→ 1
X; P [Xn = 0] = P [X = 0] = 1
Teorema 2.1.4. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ). Existiendo el momento μ2r = E X 2r ,
r = 1, 2, . . . ,
1  r p
n
Xi − X n − → μr
n i=1

El método de los momentos consiste fundamentalmente en determinar las es-


tadı́sticas que convergen en probabilidad a cada componente θj , j = 1, 2, . . . , k,
del parámetro θ, a partir de un sistema de expresiones
p
M1 −
→ μ1
p
M2 −→ μ2
..
.
p
Mk −
→ μk
62 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

sistema fundamentado en los enunciados de los teoremas de Kintchine y 1.4.5


de la página 14.
En la determinación de las estadı́sticas en consideración, también se puede
incluir en el sistema de expresiones el hecho de que
p
Mr −
→ μr

como lo enuncia el teorema anterior.


Ejemplo 2.1.9. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad
θ2θ1 θ1 −1 −θ2 x
fX (x, θ) = x e I(0,∞) (x)
Γ(θ1 )

determinar los estimadores de los componentes θ1 , θ2 del vector θ = (θ1 , θ2 ) .


Como X ∼ Gama(θ1 , θ2 ),
θ1 θ1
E[X] = y V [X] =
θ2 θ22

entonces debido a la convergencia en probabilidad de los momentos muestrales

1  2 p θ1
n
p θ1
Xn −
→ y Xi − X n − → 2
θ2 n i=1 θ2

igualmente con el apoyo del corolario 2.1.3.1,


Xn
X n p θ1 θ2 p

→ 2 luego 
n −
→1
θ2 θ2 1
n (Xi − X n )2
i=1

por lo anterior

Xn p

n −
→ θ2
1
n (Xi − X n )2
i=1

Por otra parte


 2
1 p θ2 θ1 p

→ luego −
→ θ22
Xn θ1 Xn
también
θ1
n
1
(Xi −X n )2
θ1 p n
i=1 p

n −
→ θ22 por lo tanto  2 −
→1
1
n (Xi − X n )2 θ1
Xn
i=1
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 63

en consecuencia
2
Xn p

n −
→ θ1
1
n (Xi − X n )2
i=1

En sı́ntesis,
⎛ ⎞
⎜ 2
Xn Xn ⎟
⎜ , ⎟
⎝1 
n 
n ⎠
n (Xi − X n )2 1
n (Xi − X n )2
i=1 i=1

es el estimador por el método de los momentos de θ = (θ1 , θ2 ) .


El método de los momentos, posee cierta flexibilidad en la construcción de
estimadores, al admitir relativa libertad en la conformación del sistema de ex-
presiones que son el punto de partida del método. En algunas oportunidades es
posible acudir a otro momento para eludir un obstáculo no advertido. Muestra
de ello es el siguiente ejemplo.
Ejemplo 2.1.10. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
Uniforme en el intervalo (−θ, θ). Determinar por el método de los momentos el
estimador de θ.
p
Partiendo del hecho de que X n − → 0, al no contener información sobre θ se
θ2
explora en otra dirección. Como el segundo momento ordinario es
3
1 2 p θ
n 2
X − →
n i=1 i 3

y por lo tanto
+
, n
,3 
- p
X2 −
→θ
n i=1 i

3 
n
luego n Xi2 es el estimador por el método de los momentos de θ.
i=1

Ejemplo 2.1.11. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


Normal de valor esperado θ1 y varianza θ2
p
Xn −
→ θ1

1
n
p
(Xi − X n )2 −
→ θ2
n i=1
 
1  n
luego X n , (Xi − X n )2
es el estimador por el método de los momentos
n i=1
de θ = (θ1 , θ2 ) .
64 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Ejemplo 2.1.12. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad

fX (x, θ) = θe−θx I(0,∞) (x), θ>0

Determinar el estimador de la mediana poblacional por medio del método de


los momentos.
p 1
Xn −

θ

1 p

→θ
Xn
1
luego es el estimador por el método de los momentos de θ. Teniendo en
Xn
ln(2)
cuenta que la mediana poblacional es su estimador por el método de los
θ
p ln(2)
momentos es X n ln(2) porque X n ln(2) −
→ .
θ

2.1.3 El método por analogı́a


La pretensión primaria al proponer un modelo es lograr la mayor fidelidad a
los hechos, es decir que haya concordancia entre los atributos de la realidad
y los elementos del modelo que los representan. Los parámetros de un mode-
lo probabilı́stico desempeñan funciones muy especı́ficas, y es procedente por lo
tanto que sus estimaciones estén en afinidad con ellos en el desempeño de fun-
ciones similares. Sugerido por Pleszczynska, el método por analogı́a, como su
nombre lo indica, elige el estimador luego de indagar el papel que cumplen los
componentes del parámetro dentro del modelo, derivando una estadı́stica que
de manera análoga realice la misma función dentro de la distribución empı́rica.
Un par de ejemplos ilustran la manera como este método particular procede.

Ejemplo 2.1.13. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad

fX (x, θ) = θe−θx I(0,∞) (x), θ>0

determinar usando el método por analogı́a un estimador de θ.


1 1
Como E[X] = entonces θ=
θ E[X]

El parámetro es el recı́proco del valor esperado; su estimador debe desempeñar


1
una función análoga. Por lo tanto puede adoptarse como el estimador de θ
X
usando el método por analogı́a.
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 65

Ejemplo 2.1.14. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad
1
fX (x, θ) = I(0,θ) (x)
θ
el parámetro θ determina el valor máximo de la variable aleatoria que representa
a la población; Xn,n representa al valor máximo en cualquier muestra, por lo
tanto Xn,n es el estimador de θ usando el método por analogı́a.

2.1.4 Estimación Bayesiana


El enfoque Bayesiano en la Estadı́stica es un enfoque muy singular inspirado en
la concepción de la denominada probabilidad subjetiva, probabilidad que el in-
vestigador puede alterar a la luz de información o conocimiento adicional sobre
la naturaleza del fenómeno en estudio. Coherentemente, la estimación Bayesiana
fundamenta su proceder sobre el principio de que información o conocimiento
previo sobre algunos rasgos del parámetro son elementos contribuyentes en su
estimación. Por ello a diferencia de lo tratado hasta el momento, en el sentido
de considerar una muestra aleatoria de una población con función de densidad
fX (x, θ), cuyo parámetro, un valor fijo que pertenece a un conjunto Θ, el en-
foque Bayesiano considera una muestra aleatoria de una población con función
de densidad fX (x, θ) en la cual el parámetro θ es entendido como un valor par-
ticular de una variable aleatoria Θ, variable que tiene una función de densidad
gΘ (θ), cuyo parámetro es totalmente conocido. La función gΘ (θ) recibe la de-
nominación de función de densidad a priori de Θ. Dependiendo de la naturaleza
de θ, la variable Θ es una variable aleatoria continua o discreta, según sea el
caso.
Algunas situaciones en la práctica requieren un modelado especial y el en-
foque Bayesiano es propicio para tal fin. Por ejemplo, si una compañı́a recibe
en su planta de producción materia prima cuyo nivel de calidad, medido en
términos de la fracción disconforme de artı́culos, es variable de entrega a entre-
ga, pero frecuentemente con valores bajos y muy raramente con valores altos,
y si ese nivel de calidad es para un perı́odo de inspección de lotes, en el con-
trol de calidad de la materia prima, el valor del parámetro θ de la función de
densidad de una variable Y que contabiliza el número de artı́culos disconformes
en una caja de 48 unidades, entonces para destacar esa ı́ndole de variabilidad y
de marcada tendencia en la generación de valores bajos, el parámetro θ puede
modelarse como una variable aleatoria con distribución Beta, cuya función de
densidad manifieste un fuerte sesgo a la derecha.
De la familia de densidades Beta, para esta explicación, se opta por una
individual que preserve los rasgos esperados del parámetro,
1
gΘ (θ) = θa−1 (1 − θ)b−1 I(0,1) (θ)
β(a, b)
densidad para la cual a y b son conocidos y para el caso b lo suficientemente
mayor que a para registrar el sesgo pretendido.
66 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Adoptada la distribución a priori de Θ, se selecciona una muestra aleatoria


X1 , X2 , . . . , Xn , de una población ya no con función de densidad fX (x, θ) como
hasta ahora se ha venido concibiendo, sino con función de densidad fX (x|θ)
entendida esta como una función de densidad condicional debido a que depende
de los valores de la variable aleatoria Θ.
Para el caso particular asociado en esta descripción, la muestra se selecciona
de una población con función de densidad

fX (x|θ) = θx (1 − θ)1−x I{0,1} (x)

La función de densidad condicional fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) se le conoce


como la función de densidad a posteriori de Θ, función de densidad condicional
que corresponde a
fX1 ,X2 ,... ,Xn |Θ=θ (x1 , x2 , . . . , xn |θ)gΘ (θ)
fX1 ,X2 ,... ,Xn (x1 , x2 , . . . , xn )
y debido a la independencia existente entre las variables aletorias que conforman
la muestra y la variable aleatoria que representa al parámetro θ, la función de
densidad a posteriori de Θ conviniendo que Θ es una variable continua, puede
expresarse como
n 
)
fX (xi |θ) gΘ (θ)
fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) = n
i=1

5∞ )
−∞ f X (x i |θ) gΘ (θ)dθ
i=1

Particularmente al asumir el modelo de Bernoulli, como comportamiento pobla-


cional, y el modelo Beta para el comportamiento del parámetro,
n 
) xi
a−1
θ (1 − θ) 1−xi
θ (1 − θ)b−1
i=1
fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) = n n
51 xi n− xi
0 θ
i=1 (1 − θ) i=1 θa−1 (1 − θ)b−1 dθ
n n
xi +a−1 n− xi +b−1
θi=1 (1 − θ) i=1
=  n 
 
n
β xi + a , n + b − xi
i=1 i=1

luego la distribución a posteriori de Θ es una distribución Beta. El hecho de que


la familia de densidades a la cual pertenece la función de densidad a priori de
Θ sea la misma de la función de densidad a posteriori de Θ, produce un hecho
atractivo para la computación estadı́stica, pues se puede simular la distribución
a posteriori sin acudir directamente a los resultados del teorema de Bayes.
Pero no siempre se cuenta con esta ventaja. Si se asume la función de
densidad a priori de Θ como Uniforme en el intervalo (0, 1) y la función de
densidad fX (x|θ) = θx (1 − θ)1−x I{0,1} (x), fácilmente puede comprobarse que la
distribución a posteriori de Θ es Beta.
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 67

Definición 2.1.4. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ). Una familia D de densidades se dice que
es conjugada para la función de densidad fX (x, θ), o que es cerrada bajo
muestreo respecto a la función de densidad fX (x, θ), si la función de densidad
a priori de Θ, gΘ (θ) ∈ D y si fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) ∈ D.

De lo anteriormente desarrollado se deriva que la familia de densidades Beta


es conjugada para la función de densidad de un modelo de Bernoulli.

Definición 2.1.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ), gΘ (θ) la función de densidad a priori de Θ,
r(θ) una función del parámetro θ. El estimador Bayesiano para la imagen
de θ bajo la función r, con respecto a la función de densidad a priori gΘ (θ), es
aquel cuya estimación corresponde a:
 n 
5∞ )
−∞
r(θ) f X (x i |θ) gΘ (θ)dθ
E [r(Θ)|X1 , X2 , . . . , Xn ] =  n i=1

5∞ )
−∞
f X (x i |θ) gΘ (θ)dθ
i=1

Ejemplo 2.1.15. Como se afirmó anteriormente la familia de densidades Beta


es conjugada para la función de densidad de un modelo de Bernoulli; entonces
la estimación Bayesiana de θ, corresponde a
n n
51 xi +a−1 n− xi +b−1
0
θ θi=1 (1 − θ) i=1 dθ
E [Θ|X1 , X2 , . . . , Xn ] =  

n 
n
β xi + a , n + b − xi
i=1 i=1
n n
51 xi +a n− xi +b−1
0 θ i=1 (1 − θ) i=1 dθ
=  

n 
n
β xi + a , n + b − xi
i=1 i=1

n
xi + a
i=1
=
n+a+b
dicho en otros términos, el estimador Bayesiano para θ con respecto a la función
de densidad a priori de Θ, perteneciente a la familia Bernoulli de densidades, es

n
Xi + a
i=1
Tn =
n+a+b
Puede comprobarse que si se hubiese asumido el modelo uniforme en el intervalo
(0, 1) como la distribución a priori de Θ, el estimador Bayesiano correspondiente
68 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

serı́a:

n
Xi + 1
i=1
Tn =
n+2
y la estimación Bayesiana para la varianza de la población θ(1 − θ), es decir
la estimación Bayesiana de la imagen de θ bajo la función r(θ) = θ(1 − θ),
asumiendo el mencionado modelo Uniforme en el intervalo (0, 1) como la dis-
tribución a priori de Θ, se deriva en la forma siguiente
n n
51 xi n− xi
0 θ(1 − θ) θ (1 − θ) i=1 dθ
i=1

E [r(Θ)|X1 , X2 , . . . , Xn ] = n n
51 xi n− xi
0
θ i=1 (1 − θ) i=1 dθ
n n
51 xi +1 n− xi +1
0 θi=1 (1 − θ) i=1 dθ
=  

n 
n
β xi + 1 , n + 1 − xi
i=1 i=1
   

n n
xi + 1 n + 1 − xi
i=1 i=1
=
(n + 3)(n + 2)
Ejemplo 2.1.16. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población
con distribución Normal de valor esperado θ y varianza σ 2 asumida como una
constante conocida. La distribución a priori de Θ se establece como Normal de
valor esperado μp y varianza σp2 , por supuesto conocidos. Puede comprobarse
que la familia de densidades Gaussiana es conjugada para la función de densidad
de un modelo Gaussiano e igualmente que la distribución a posteriori de Θ es
normal de valor esperado
nσp2 xn + μp σ 2
nσp2 + σ 2
y varianza
σp2 σ 2
nσp2 + σ 2
Nota. Como μp y σp2 son valores fijos y conocidos, en la medida en que el
tamaño de la muestra se incremente este estimador tiende al estimador máximo-
verosı́mil para θ.
Para terminar, los estimadores Bayesianos definidos en esta sección, real-
mente son estimadores Bayesianos cuyas estimaciones minimizan una función
de pérdida particular llamada error cuadrático. Quiere decir esto que si se adop-
ta otra función de pérdida, el estimador Bayesiano puede ser de otra naturaleza.
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 69

2.2 Criterios para examinar estimadores


Otorgar facultades a una estadı́stica para que se desempeñe cabalmente como
estimador es el resultado del cumplimiento por parte de ella de cada uno de
los requisitos de un conjunto de requisitos deseables para un estimador idóneo;
consiste en colocar en balanza los requisitos que la estadı́stica cumple, sus ca-
pacidades, y aquellos rasgos que menoscaban en algún grado su misión, es decir,
la evaluación del costo beneficio de adoptar un estimador con algunas deficien-
cias frente a sus virtudes.
Se trata de un procedimiento análogo a un procedimiento de certificación
de calidad que asegura que un producto, un proceso o un servicio, cumple con
los requisitos especificados, lo cual genera un factor imprescindible en la ci-
mentación de la confianza en las relaciones cliente proveedor. Facultar una
estadı́stica es en sı́ acreditar la calidad de un proceso, un proceso particular de
inferencia, para que el usuario pueda aplicarlo con la confianza derivada de la
certificación, a semejanza del uso que un cliente le da a un producto o servicio
certificado.
Ası́ como en una relación comercial, el proveedor necesita disponer de evi-
dencias que confirmen la aptitud del producto o la diligencia del servicio, para
que su cliente pueda confiar en su destreza para satisfacer sus expectativas y
necesidades, análogamente de un estimador es menester contar con una relación
de sus solvencias para que su uso, sujeto al modelo adoptado, satisfaga la pre-
cisión y exactitud previstas en el proceso de estimación y tenga en cuenta las
limitaciones y particularidades del entorno de su aplicación.
Contrario a lo que frencuentemente se presenta como propiedades de los es-
timadores, este texto las destaca como requisitos para facultar estadı́sticas en su
desempeño como estimadores. Los requisitos indagan sobre el carácter del cen-
tro de gravedad de la distribución muestral de la estadı́stica, sobre la naturaleza
de su concentración, sobre atributos especiales derivados de su construcción,
sobre el efecto que pueda tener el tamaño de la muestra en su esencia y sobre
otras condiciones de mayor abstracción.
Es usual en la certificación de estimadores adjetivar al estimador con el
requisito que cumple. Por ejemplo se designará como estimador insesgado al
estimador que cumple el requisito del insesgamiento, estimador consistente al
estimador que satisface el requerimiento de la consistencia, etc. Igualmente,
la estimación correspondiente, es decir el valor particular del estimador, se le
adjetiva de igual forma: estimación insesgada, estimación consistente.
Para dar paso a la exposición de estos requisitos o criterios para el examen
de una estadı́stica, se describe en primer lugar lo relativo a la concentración de
un estimador.

2.2.1 Concentración, un requisito de precisión


Definición 2.2.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x, θ), la función r(θ) una función del parámetro
(1) (2)
θ, y Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ) dos estimadores
70 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

(1)
para la imagen de θ bajo la función r. Se dice que el estimador Tn es más
(2)
concentrado que el estimador Tn si y sólo si
   
Pθ r(θ) − λ < Tn(1) < r(θ) + λ ≥ Pθ r(θ) − λ < Tn(2) < r(θ) + λ

para cada λ > 0 y cada θ ∈ Θ.


En la definición anterior se utilizó el sı́mbolo Pθ en cambio del sı́mbolo usual
P para acentuar el hecho de que el cálculo de la probabilidad allı́ indicado se
basa en un modelo asumido, modelo que lleva consigo al parámetro θ como
su componente connatural; quiere decir entonces que el citado cálculo alude
a cualquier valor del parámetro, en su respectivo espacio, por supuesto. En
este mismo sentido, al utilizar Eθ y Vθ se hace referencia al valor esperado y a
la varianza respectivamente de una variable aleatoria, bajo las consideraciones
hechas de la dependencia del modelo asumido y de su parámetro inherente.
Definición 2.2.2. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x, θ) y r(θ) una función del parámetro. El estimador
Tn∗ = t∗ (X1 , X2 , . . . , Xn ) se denomina el estimador más concentrado para
la imagen de θ bajo r, si él es más concentrado que cualquier otro estimador
para la imagen de θ bajo la función r.
(1)
Definición 2.2.3. Dentro del marco de la definición 2.2.1 el estimador Tn se
(2)
denomina estimador Pitman más concentrado que el estimador Tn para
la imagen de θ bajo la función r si y sólo si
  1
Pθ |Tn(1) − r(θ)| < |Tn(2) − r(θ)| ≥
2
Definición 2.2.4. El estimador Tn∗ = t∗ (X1 , X2 , . . . , Xn ) se denomina el es-
timador Pitman más concentrado para la imagen de θ bajo la función r si
él es Pitman más concentrado que cualquier otro estimador para imagen de θ
bajo r.
Definición 2.2.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x, θ), la función r(θ) una función del parámetro θ
y Tn = t(X1 , X2 , . . . , Xn ) un estimador de la imagen de θ bajo la función r.
Una medida de concentración del estimador Tn es llamada error cuadrático
medio (ECM) definido como


ECMTn (θ) = Eθ (Tn − r(θ))2

El centro de gravedad de la función de densidad de una variable aleatoria es


un punto de referencia destacado. Para una estadı́stica, lo es en mayor medida
al tornarse en ineludible el conocimiento, con el máximo detalle posible, de la
ı́ndole de su valor esperado. En particular el saber si el centro de gravedad
de la función de densidad de la estadı́stica postulada coincide con el valor del
parámetro o con la imagen del parámetro bajo una función determinada, según
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 71

sea el caso, es una cualidad deseable dentro de los pormenores de la exactitud


que se le exige, y por lo tanto es un ingrediente necesario dentro del examen
de idoneidad como estimador. Por ello cobra importancia el requisito de inses-
gamiento como uno de los elementos para facultar estadı́sticas, requisito que a
continuación se presenta.

Definición 2.2.6. Dentro de las condiciones de la definición 2.2.5 un esti-


mador Tn se dice que es un estimador insesgado para la imagen de θ bajo la
función r si y sólo si

Eθ [Tn ] = r(θ)

para todo θ ∈ Θ

Definición 2.2.7. Bajo las consideraciones de la definición 2.2.5, la diferencia

Bθ [Tn ] = Eθ [Tn ] − r(θ)

se denomina sesgo del estimador Tn para la imagen de θ bajo r.

El error cuadrático medio de un estimador Tn puede expresarse como la


suma de dos componentes: la varianza del estimador Tn y el cuadrado del sesgo
del mismo. En efecto


ECMTn (θ) = Eθ (Tn − r(θ))2
6 7
= Eθ [(Tn − Eθ [Tn ]) + (Eθ [Tn ] − r(θ))]2
= Vθ [Tn ] + Bθ2 [Tn ]

porque (Eθ [Tn ] − r(θ))Eθ [Tn − Eθ [Tn ]] = 0.


Por supuesto si Tn es un estimador insesgado para la imagen de θ bajo la función
r, entonces Bθ [Tn ] = 0 y por lo tanto

ECMTn (θ) = Vθ [Tn ]

El requisito de insesgamiento se puede cumplir en muchos casos modificando


ligeramente la estadı́stica en consideración. En otras oportunidades el sesgo
pierde interés y no es obstáculo en el buen desempeño del estimador, porque en
la medida en que el tamaño de la muestra se incrementa el sesgo se disipa.

Definición 2.2.8. Bajo las consideraciones de la definción 2.2.5 al estimador


Tn = t(X1 , X2 , . . . , Xn ) basado en una muestra aleatoria de un población con
función de densidad fX (x, θ) se le denomina estimador asintóticamente
insesgado para la imagen de θ bajo la función r si

lim {Eθ [Tn ] − r(θ)} = 0


n→∞

para todo θ ∈ Θ.
72 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Ejemplo 2.2.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad
1
fX (x, θ) = I(0,θ) (x), θ>0
θ
El método por analogı́a sugiere el estimador Tn = Xn,n para θ; determinar el
ECM de Xn,n .
ny n−1
fXn,n (y) = I(0,θ) (y)
θn
 θ
n n n
Eθ [Xn,n ] = y dy = θ
0 θn n+1

n θ
Bθ [Xn,n ] = θ−θ =−
n+1 n+1
Claramente Xn,n es un estimador asintóticamente insesgado para θ.
 θ
n n 2
2
Eθ [Xn,n ]= n y n+1 dy = θ
θ 0 n+2

n 2 n2 n
Vθ [Xn,n ] = θ − θ2 = θ2
n+2 (n + 1)2 (n + 1)2 (n + 2)
luego
2θ2
ECMXn,n (θ) =
(n + 1)(n + 2)
Ejemplo 2.2.2. El MLE de σ 2 basado en una muestra aleatoria X1 , X2 , . . . , Xn ,
de una población Gaussiana de valor esperado μ y varianza σ 2 es

1  2
n
Tn = Xi − X n
n i=1

estadı́stica con un sesgo que puede pasarse por alto al contar con una muestra
grande, porque Eθ [Tn ] = n−1 2
n σ . Sin embargo es factible corregir esta ligera
imperfección construyendo una estadı́stica que cumpla el requisito de inses-
gamiento. Precisamente la estadı́stica

1  2
n
Sn2 = Xi − X n
n − 1 i=1

cuenta con una función de densidad cuyo centro de gravedad es justamente


σ 2 , como lo asegura de manera general el teorema 1.4.2. Independientemente
del modelo asumido, el insesgamiento de Sn2 como estimador de la varianza
poblacional es la razón por la cual Sn2 se adopta como varianza de la muestra.
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 73

(1) (2)
Ejemplo 2.2.3. Si Tn y Tn son dos estimadores insesgados para θ cuyas
(i)
varianzas son respectivamente σ12 y σ22 y si además Tn ∼ N (θ, σi2 ) entonces
(1) (2)
Tn es más concentrado que Tn para θ si y sólo si σ12 < σ22 . En efecto, como

   −λ
(i)
Tn − θ
 (i)  λ
Pθ Tn − θ < λ = Pθ < <
σi σi σi
     
λ λ λ
=Φ −Φ − = 2Φ
σi σi σi
5v 1 2
siendo Φ(v) = −∞ √12π e− 2 z dz, entonces
     
   
Pθ Tn(1) − θ < λ ≥ Pθ Tn(2) − θ < λ
   
λ λ
2Φ − 1 ≥ 2Φ −1
σ1 σ2
   
λ λ
Φ ≥Φ
σ1 σ2

λ λ
desigualdad que se cumple cuando ≥ , en sı́ntesis cuando σ1 < σ2 .
σ1 σ2

2.2.2 Consistencia, un requisito ligado al tamaño de la


muestra
Definición 2.2.9. Sea Tn = t(X1 , X2 , . . . , Xn ) un estimador para la imagen
de θ bajo r, r una función de θ, construido con base en una muestra aleatoria
X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ). Tn se de-
nomina estimador consistente en error cuadrático medio para la imagen
de θ bajo la función r, si la sucesión de estadı́sticas {Tn } converge en media
cuadrática a r(θ), es decir si


lim Eθ (Tn − r(θ))2 = 0
n→∞

para todo θ ∈ Θ.
Definición 2.2.10. Bajo las consideraciones de la definición 2.2.9, Tn es un
estimador consistente simple o consistente débil para la imagen de θ bajo
r si, la sucesión de estadı́sticas {Tn } converge en probabilidad a r(θ), es decir
si

lim Pθ [r(θ) −  < Tn < r(θ) + ] = 1


n→∞

para todo θ ∈ Θ.
Nota. Un estimador que haya sido construido por el método de los momentos,
naturalmente es un estimador consistente simple.
74 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Como la consistencia de un estimador es una propiedad inherente a la con-


vergencia, un estimador consistente en error cuadrático medio es un estimador
consistente simple. Lo contrario no siempre es cierto.
Definición 2.2.11. Sea Tn∗ = t∗ (X1 , X2 , . . . , Xn ) una estadı́stica basada en
una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad
fX (x, θ) estadı́stica elegida como estimador para la imagen de θ bajo una función
r. Tn∗ se denomina estimador BAN (best asymptotically Normal) si y
sólo si
1. La sucesión de variables aleatorias

{ n[Tn∗ − r(θ)]}
converge en distribución a una variable aleatoria con distribución Normal
2
de valor esperado cero y varianza σ ∗ (θ).
2. El estimador Tn∗ es consistente simple para la imagen de θ bajo la función
r.
3. Siendo Tn cualquier otro estimador consistente simple para la imagen de
θ bajo la función r para el cual la sucesión

{ n[Tn − r(θ)]}
converge en distribución a una variable aleatoria con distribución Normal
de valor esperado cero y varianza σ 2 (θ), se tiene que
2
σ ∗ (θ) ≤ σ 2 (θ)

Definición 2.2.12. Un estimador Tn para la imagen de θ bajo la función r con


las condiciones de la definición 2.2.11 se denomina estimador CAN (con-
sistent asymptotically Normal) o Tn es CANE, si
√ d
n(Tn − r(θ)) −→ N (0, σ 2 (θ))
para todo θ ∈ Θ.
(1) (2)
Definición 2.2.13. Si Tn y Tn son dos estimadores CAN para la imágen de
θ bajo una función r, basados en una muestra aleatoria X1 , X2 , . . . , Xn de una
población con función de densidad fX (x, θ), cuyas varianzas son respectivamente
(1) (2)
σ12 (θ) y σ22 (θ), se dice que Tn es asintóticamente más concentrado que Tn
si σ12 (θ) ≤ σ22 (θ), para todo θ ∈ Θ.
Teorema 2.2.1. Siendo X1 , X2 , . . . , Xn una muestra de una población con
función de densidad fX (x, θ), una función continua y positiva en el percentil xp
con p un valor fijado de antemano, entonces la estadı́stica de orden X[np]+1,n
es un estimador CAN para el percentil xp con σ 2 (θ) = nfp(1−p)
2 o dicho de otra
X (xp ,θ)
manera
8
n
d
fX (xp , θ) X[np]+1,n − xp −→ Z ∼ N (0, 1)
p(1 − p)
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 75

2.2.3 Suficiencia, un requisito de retención de información

El concepto de suficiencia que no es tan intuitivo como el concepto de consisten-


cia, insesgamiento o concentración, fue definido por Fisher en 1922. En una de
sus afirmaciones, expresaba que una estadı́stica suficiente es “equivalente, para
todos los propósitos de estimación, a los datos originales de los cuales fue deriva-
da”, afirmación que permite señalar entonces la importancia de una estadı́stica
suficiente y colegir que un buen estimador debe ser función de una estadı́stica
con esta propiedad.
La idea de suficiencia indaga sobre la “pérdida de información”, que para
efectos de estimación del parámetro θ, supone la reducción de los valores ob-
servados x1 , x2 , . . . , xn en un solo dato: tn = t(x1 , x2 , . . . , xn ), que a la luz
de la afirmación de Fisher, citada en el párrafo anterior, significa que una es-
tadı́stica suficiente conserva de alguna manera la información contenida en la
muestra aleatoria, es decir en las variables aleatorias que representan a los datos
originales.
El concepto de suficiencia involucra a las observaciones muestrales, observa-
ciones que pueden considerarse como un elemento del espacio de las observa-
ciones X subconjunto de Rn definido como

X = {(x1 , x2 , . . . , xn )|x1 , x2 , . . . , xn son valores observados de X1 , X2 , . . . , Xn }

El conocimiento de un valor particular tn de una estadı́stica Tn no permite


la identificación de cada uno de los valores muestrales x1 , x2 , . . . , xn , que lo
produjeron, porque varios elementos del espacio de las observaciones X pueden
tener como imagen el mismo valor tn , elementos éstos que conforman un sub-
conjunto denominado contorno de la estadı́stica Tn . Cualquier contorno de
una estadı́stica suficiente, posee una propiedad especial: su comportamiento
probabilı́stico no depende del parámetro θ. Esta idea se abstrae y se formaliza
en la siguiente definición.

Definición 2.2.14. El estimador Tn = t(X1 , X2 , . . . , Xn ) para el parámetro


θ se dice que es una estadı́stica suficiente para θ, basada en una muestra
aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ),
si la distribución condicional de las variables aleatorias X1 , X2 , . . . , Xn dado
Tn = tn , no depende de θ para todo valor tn .

Ejemplo 2.2.4. Sea X1 , X2 una muestra aleatoria de tamaño dos de una po-
blación con distribución de Bernoulli de parámetro θ. T2 = X1 + X2 es una
estadı́stica suficiente para θ.

Pθ [X1 = 0, X2 = 0|T2 = 0] = 1, Pθ [X1 = 1, X2 = 1|T2 = 2] = 1


76 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Pθ [T2 = 1] = Pθ [X1 = 1, X2 = 0] + Pθ [X1 = 0, X2 = 1]


= θ(1 − θ) + θ(1 − θ)
= 2θ(1 − θ)

Pθ [X1 = 1, X2 = 0]
Pθ [X1 = 1, X2 = 0|T2 = 1] =
Pθ [T2 = 1]
θ(1 − θ)
=
2θ(1 − θ)
1
=
2

Pθ [X1 = 0, X2 = 1]
Pθ [X1 = 0, X2 = 1|T2 = 1] =
Pθ [T2 = 1]
θ(1 − θ)
=
2θ(1 − θ)
1
=
2

Se concluye de esta manera que T2 = X1 + X2 es una estadı́stica suficiente para


θ pues la distribución condicional de las variables X1 , X2 dada la estadı́stica T2
no depende de θ.
Por su parte la estadı́stica T2 = X1 X2 , no es una estadı́stica suficiente para θ.
La estadı́stica toma dos valores: 0 y 1.
Pθ [T2 = 0] = Pθ [X1 = 0, X2 = 0] + Pθ [X1 = 1, X2 = 0] + Pθ [X1 = 0, X2 = 1]
= (1 − θ)2 + 2(1 − θ)θ = 1 − θ2
Pθ [T2 = 1] = θ2
Según la definición anterior es preciso examinar la distribución codicional de
X1 , X2 dado T2 = t2 , es decir si las siguientes probabilidades dependen o no del
parámetro θ, para poder concluir sobre la suficiencia de la estadı́stica.
(1 − θ)2 1−θ
Pθ [X1 = 0, X2 = 0|T2 = 0] = =
1 − θ2 1+θ
θ(1 − θ) θ
Pθ [X1 = 0, X2 = 1|T2 = 0] = =
1−θ 2 1+θ
θ(1 − θ) θ
Pθ [X1 = 1, X2 = 0|T2 = 0] = =
1 − θ2 1+θ
Pθ [X1 = 1, X2 = 1|T2 = 1] = 1
Con estos resultados puede deducirse que la estadı́stica T2 = X1 X2 no es una
estadı́stica sufiente para θ.
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 77

Determinar a partir de la definición 2.2.14 si una estadı́stica especı́fica es una


estadı́stica suficiente no es una tarea fácil en la mayorı́a de las situaciones, porque
la sola construcción de la distribución condicional puede resultar dispendiosa.
Menos complicado podrı́a resultar el uso de la siguiente definición, apropiada
más para señalar la no suficiencia que la suficiencia de una estadı́stica particular.
Por fortuna, el criterio de Fisher-Neyman es un instrumento seguro para la
búsqueda o confirmación de estadı́sticas suficientes.

Definición 2.2.15. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ). Una estadı́stica Tn = t(X1 , X2 , . . . , Xn ) es
una estadı́stica suficiente para el parámetro θ si y sólo si la distribución
condicional de Tn = t (X1 , X2 , . . . , Xn ) dado Tn = tn , no depende de θ, Tn es
cualquier estadı́stica.

Teorema 2.2.2 (Criterio de factorización de Fisher-Neyman). (Versión


para estadı́sticas suficientes unidimensionales). Sea X1 , X2 , . . . , Xn una mues-
tra aleatoria de una población con función de densidad fX (x, θ). Siendo Tn
una estadı́stica, Tn = t(X1 , X2 , . . . , Xn ), ella es suficiente para θ si y sólo si
la función de verosimilitud de la muestra puede expresarse como el producto de
dos factores:

L(θ; x1 , x2 , . . . , xn ) = g(t(x1 , x2 , . . . , xn ); θ)h(x1 , x2 , . . . , xn )

siendo h una función no negativa que depende exclusivamente de x1 , x2 , . . . , xn


y la función g, no negativa, que depende de θ y de x1 , x2 , . . . , xn a través de
t(x1 , x2 , . . . , xn ).

El ejemplo 2.2.4 pretende ser inductor del concepto de la suficiencia de una


estadı́stica, ejemplo despojado de toda complicación de cálculo, para centrar la
reflexión sobre el concepto a la luz de la definición 2.2.14. Por el contrario, el
siguiente ejemplo generalización del citado ejemplo, ilustra una forma mecánica
de determinar estadı́sticas suficientes con el recurso del criterio de factorización
de Fisher-Neyman.

Ejemplo 2.2.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución de Bernoulli de parámetro θ.
78 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS


n
Tn = Xi es una estadı́stica suficiente para θ. En efecto,
i=1

n n n
xi n− xi
L(θ; x1 , x2 , . . . , xn ) = θ i=1 (1 − θ) i=1 I{0,1} (xi )
i=1
  n
xi n
θ i=1
= (1 − θ) n
I{0,1} (xi )
1−θ i=i
⎡ ⎤
  n xi n
θ
=⎣ (1 − θ) ⎦
i=1 n
I{0,1} (xi )
1−θ i=1
9 :; <9 :; <
n h(x1 ,x2 ,... ,xn )
g xi ,θ
i=1


n
luego el criterio de Fisher-Neyman permite concluir que Xi es una estadı́stica
i=1
suficiente para θ.

Definición 2.2.16. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


(1) (2) (m)
con función de densidad fX (x, θ). Las estadı́sticas Tn , Tn , . . . , Tn , siendo
(i)
Tn = ti (X1 , X2 , . . . , Xn ), i = 1, 2, . . . , m, se denominan estadı́sticas con-
juntamente suficientes para θ si y sólo si la distribución de X1 , X2 , . . . , Xn
(1) (2) (m)
dado Tn , Tn , . . . , Tn no depende de θ.
(1) (2)
Teorema 2.2.3. Si Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), . . . ,
(m)
Tn = tm (X1 , X2 , . . . , Xn ) es un conjunto de estadı́sticas conjuntamente su-
(1) (2) (m)
ficientes, entonces cualquier transformación uno a uno de Tn , Tn , . . . , Tn
es también un conjunto de estadı́sticas suficientes.

Teorema 2.2.4 (Criterio de Factorización de Fisher-Neyman). (Versión


para estadı́sticas conjuntamente suficientes). Sea X1 , X2 , . . . , Xn una muestra
aleatoria de una población con función de densidad fX (x, θ). El conjunto de es-
(1) (2)
tadı́sticas Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ),
(m)
. . . , Tn = tm (X1 , X2 , . . . , Xn ) constituye una colección de estadı́sticas conjun-
tamente suficientes para θ si y sólo si la función de verosimilitud de la muestra
L(θ; x1 , x2 , . . . , xn ) = L puede expresarse como

L = g(t1 (x1 , x2 , . . . , xn ), . . . , tm (x1 , x2 , . . . , xn ); θ)h(x1 , x2 , . . . , xn )

la función h es una función no negativa que depende de x1 , x2 , . . . , xn exclu-


sivamente y g una función no negativa que depende de θ y de x1 , x2 , . . . , xn a
través de t1 , t2 , . . . , tm .

Ejemplo 2.2.6. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 79

Normal de valor esperado μ y varianza σ 2 , θ = (μ, σ 2 ) .


n
  2 
1 1 xi − μ
L(θ; x1 , x2 , . . . , xn ) = √ exp −
i=1
2πσ 2 σ
 n 
1 1  n
−n
= n σ exp − 2 xi − 2μ
2
xi + nμ2
(2π) 2 2σ i=1 i=1
9 :; <
n n
g x2i , xi ,θ
i=1 i=1


n 
n
h(x1 , x2 , . . . , xn ) = 1. Luego Xi y Xi2 son conjuntamente suficientes para
i=1 i=1
θ = (μ, σ 2 ) . También son conjuntamente suficientes para θ
 n 
1 1 
n
Xi , (Xi − X n )2
n i=1 n − 1 i=1

Se decı́a en la parte introductoria del método de máxima verosimilitud, que


los estimadores construidos bajo este procedimiento poseen propiedades espe-
ciales que los hacen atractivos. Sin destacarlas en sección alguna del texto, esas
propiedades van surgiendo con el desarrollo del capı́tulo. En primer lugar un
MLE puede ser una estadı́stica suficiente, teniendo en cuenta los enunciados de
los teoremas 2.2.5 y 2.2.6.
Teorema 2.2.5. Si Tn es una estadı́stica suficiente para θ basada en una mues-
tra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ)
y si Tn∗ es un MLE para θ, y es único, entonces Tn∗ es función de Tn .
Definición 2.2.17. Una estadı́stica suficiente Tn se denomina suficiente
minimal si Tn es función de cualquier otra estadı́stica suficiente.
Definición 2.2.18. Una colección de estadı́sticas conjuntamente suficientes se
denomina minimal si y sólo si, ellas son función de cualquier otro conjunto de
estadı́sticas suficientes.
Teorema 2.2.6. Sea Tn un MLE para θ, estimador basado en una muestra
aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ).
Si Tn es el único MLE para θ, entonces Tn es función de una colección minimal
de estadı́sticas conjuntamente suficientes. Si Tn no es el único MLE para θ,
entonces existe un estimador máximo-verosı́mil Tn que es una función de una
colección minimal de estadı́sticas conjuntamente suficientes.
Para propósitos diversos suele constituirse familias de densidades, que agru-
pan modelos probabilı́sticos que poseen alguna o algunas caracterı́sticas co-
munes. La familia Pearsoniana por ejemplo congrega densidades que satisfacen
la ecuación diferencial
x+α
y = y
β + γx + δx2
80 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

siendo y = fX (x) y α, β, γ, δ constantes. En otras oportunidades se construye


una familia de densidades que se puede entender como un “macromodelo”puesto
que incluye modelos probabilı́sticos tradicionales como sus casos particulares.
Tal es el caso de la denominada distribución Gama generalizada, propuesta por
Stacy, que incluye modelos particulares como la distribución Gama, la distribu-
ción Exponencial, la distribución Weibull e inclusive la distribución Lognormal
entendida como el caso en el cual k → ∞. La función de densidad que identifica
a esta distribución, a esta familia o a este macromodelo tiene como expresión a
   
β  x βk−1 x β
exp − I(0,∞) (x)
αΓ(k) α α
con x cualquier valor de la variable aleatoria, α, β y k constantes positivas.
Esta tendencia a la agrupación de modelos de probabilidad en familias tiene
en cada caso propósitos especı́ficos, como se habı́a mencionado. Concretamente
en el estudio de la suficiencia y la completez tiene un singular interés una fa-
milia de densidades conocida corrientemente como la familia exponencial de
densidades, que la definición 2.2.19 detalla.
Definición 2.2.19. Sea (X1 , X2 , . . . , Xp ) un vector aleatorio. Se afirma que
la función de densidad de (X1 , X2 , . . . , Xp ) pertenece a la clase o familia
p-dimensional de Koopman-Darmois k-paramétrica, que tiene la for-
ma Koopman-Darmois o que pertenece a la clase o familia exponencial
p-dimensional de densidades k-paramétrica si la función de densidad
fX1 ,X2 ,... ,Xp (x1 , x2 , . . . , xp ) se puede expresar como
⎡ ⎤
 k
exp ⎣ dj (x1 , x2 , . . . , xp )cj (θ) + a(θ) + b(x1 , x2 , . . . , xp )⎦
j=1

para todo θ ∈ Θ ⊆ Rk , para b, d1 , d2 , . . . , dk , funciones de x1 , x2 , . . . , xp y


a, c1 , c2 , . . . , ck , funciones de θ escogidas convenientemente.
Definición 2.2.20. Como caso especial en la definición 2.2.19, una función
de densidad fX (x, θ), θ ∈ Θ ⊆ R, pertenece a la familia exponencial unidi-
mensional de densidades si la función de densidad fX (x, θ) puede expresarse
como
fX (x, θ) = a(θ)b(x)exp[c(θ)d(x)]
para todo x, θ ∈ Θ con a, b, c, d funciones escogidas convenientemente.
Definición 2.2.21. También particularizando la definición 2.2.19, la función
de densidad fX (x, θ) pertenece a la familia exponencial de densidades k-
paramétrica si fX (x, θ) puede expresarse como
 k 

fX (x, θ) = a (θ1 , θ2 , . . . , θk ) b(x)exp cj (θ1 , θ2 , . . . , θk ) dj (x)
i=1

para todo x, y todo θ ∈ Θ ⊆ Rk , con a, b, cj , dj funciones elegidas conveniente-


mente.
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 81

En general sin hacer mención al entero k que se refiere al número de com-


ponentes del vector θ, ni al número p de variables aleatorias que constituyen
el vector aleatorio, se habla simplemente de clase o familia Koopman-Darmois,
clase o familia exponencial de densidades. La determinación de k y p será ex-
plı́cita o se podrá deducir del contexto.
Ejemplo 2.2.7. La función de densidad de una variable aleatoria con distribu-
ción Exponencial negativa pertenece a la familia exponencial de densidades.
Efectivamente,

fX (x, θ) = θe−θx I(0,∞) (x) = [θ]I(0,∞) (x)exp{[−θ][x]}

donde a(θ) = θ, b(x) = I(0,∞) (x), c(θ) = −θ, d(x) = x


Ejemplo 2.2.8. La función de densidad de una variable aleatoria con distribu-
ción de Poisson pertenece a la familia exponencial de densidades debido a que

θx e−θ
fX (x, θ) = I (x)
x!  {0,1,2,... } 

−θ I{0,1,2... } (x)
= e exp{[ln θ][x]}
x!

donde a(θ) = e−θ , b(x) = I{0,1,2,... } (x)/x!, c(θ) = ln θ, d(x) = x


Nota. Si fX (x, θ) pertenece a la familia exponencial unidimensional de densi-
dades y si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con dicha
función de densidad, la estadı́stica

n
d(Xi )
i=1

es una estadı́stica suficiente.


Esta afirmación puede sustentarse utilizando el criterio de factorización.
Como fX (x, θ) pertenece a la familia exponencial unidimensional de densidades,

fX (x, θ) = a(θ)b(x)exp{c(θ)d(x)}
 
n 
n
n
L(x1 , x2 , . . . , xn ; θ) = a (θ) b(xi )exp c(θ) d(xi )
i=1 i=1
  ! "

n
n

n )
n
g d(xi ), θ = a (θ)exp c(θ) d(xi ) y h(x1 , x2 , . . . , xn ) = b(xi ) La
i=1 i=1 i=1

k
estadı́stica d(Xi ) ha sido denominada por algunos autores como la estadı́stica
i=1
natural de la familia exponencial unidimensional e igualmente por las razones
de la nota anterior, para efectos de suficiencia, se le conoce como la estadı́stica
natural suficiente de la familia exponencial unidimensional. También al vec-
tor θ∗ = (c1 (θ), c2 (θ), . . . , ck (θ)) se le denomina el parámetro natural de la
82 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

 

n 
n 
n
distribución y en general a la estadı́stica d1 (Xi ), d2 (Xi ), . . . , dk (Xi )
i=1 i=1 i=1
se le conoce como estadı́stica natural k-dimensional para θ.

Ejemplo 2.2.9. La función de densidad de una variable aleatoria X


1
fX (x, θ) = xθ1 −1 (1 − x)θ2 −1 I(0,1) (x)
β(θ1 , θ2 )

pertenece a la familia exponencial 2-paramétrica de densidades.


 
1

fX (x, θ) = I(0,1) (x) exp {[θ1 − 1][ln(x)] + [θ2 − 1][ln(1 − x)]}
β(θ1 , θ2 )

donde a(θ) = 1/β(θ1 , θ2 ), b(x) = I(0,1) (x), c1 (θ1 , θ2 ) = θ1 −1, c2 (θ1 , θ2 ) = θ2 −1,
d1 (x) = ln x, d2 (x) = ln(1 − x).

Nota. Igualmente, con el apoyo del criterio de factorización se deduce que si


fX (x, θ) pertenece a la familia exponencial k-paramétrica de densidades, las es-
tadı́sticas

n 
n 
n
d1 (Xi ), d2 (Xi ), . . . , dk (Xi )
i=1 i=1 i=1

son conjuntamente suficientes para θ. Además se puede demostrar que consti-


tuyen una colección minimal.

Antes de concluir lo concerniente a la suficiencia, es menester precisar el


término equivalencia y su efecto en la suficiencia, debido a la existencia de
estadı́sticas que para efectos de inferencia proporcionan la misma información.
Igualmente si la suficiencia se asocia con la idea de retención de información, lo
contrario el no poseer información relativa al parámetro es un atributo que de
alguna manera debe señalarse.

Definición 2.2.22. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población


con función de densidad fX (x, θ). Siendo Tn∗ y Tn dos estadı́sticas tales que
Tn∗ = t∗ (X1 , X2 , . . . , Xn ) y Tn = t(X1 , X2 , . . . , Xn ), se dice que las dos es-
tadı́sticas son equivalentes si existe una función g uno a uno de tal manera
que Tn∗ = g(Tn ).

Teorema 2.2.7. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población


con función de densidad fX (x, θ). Siendo las estadı́sticas Tn = t(X1 , X2 , . . . , Xn )
y Tn∗ = t∗ (X1 , X2 , . . . , Xn ) estadı́sticas equivalentes, si Tn es una estadı́stica su-
ficiente para θ, también lo es Tn∗ .

Esta propiedad que resalta el anterior teorema, se intuye fácilmente porque


dado cualquier contorno de la estadı́stica Tn∗ él corresponde al mismo contorno de
la estadı́stica Tn . Es esta propiedad la que permite construir buenos estimadores
a partir de una estadı́stica suficiente.
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 83

Finalmente, contrario a lo expresado en esta sección dedicada a la suficiencia,


en el sentido de que una estadı́stica suficiente contiene toda la información
respecto del parámetro, existen estadı́sticas que no contienen dicha información.
Entonces la idea contraria a la suficiencia puede formalizarse en la siguiente
definición y una utilización particular de ella la precisa el teorema de Basu.

Definición 2.2.23. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población


con función de densidad fX (x, θ). La estadı́stica Tn = t(X1 , X2 , . . . , Xn ) se de-
nomina estadı́stica auxiliar para el parámetro θ si fTn (t) es una función que
no depende de θ. Si especı́ficamente E[Tn ] es un valor que no depende de θ, Tn
se denomina estadı́stica auxiliar de primer orden

Teorema 2.2.8 (Teorema de Basu). Sea X1 , X2 , . . . , Xn una muestra aleato-


ria de una población con función de densidad fX (x, θ). Siendo la estadı́stica
Tn = t(X1 , X2 , . . . , Xn ) una estadı́stica auxiliar para el parámetro θ y la es-
tadı́stica Tn∗ = t∗ (X1 , X2 , . . . , Xn ) una estadı́stica suficiente para θ, entonces
Tn y Tn∗ son variables aleatorias estadı́sticamente independientes.

Ejemplo 2.2.10. Cuando se derivaba el estimador por el método de los mo-


mentos para el parámetro θ bajo el modelo Uniforme en el intervalo (−θ, θ),
p

n −
ejemplo 2.1.10, página 63, el método encontró un obstáculo: X → 0. Allı́
se afirmó que X n no contenı́a información sobre θ. Como Eθ X n = 0, X n
entonces es una estadı́stica auxiliar de primer orden.

Ejemplo 2.2.11. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población


(1) X1,n (2)
Uniforme en el intervalo (0, θ), las estadı́sticas Tn = y Tn = Xn,n son
Xn,n
variables aleatorias independientes.
Como Xn,n es una estadı́stica suficiente para θ, de acuerdo al teorema de Basu
(1)
sólo resta mostrar que Tn es una estadı́stica auxiliar. En efecto,
 
X1,n
FT (1) (t) = P ≤t , 0<t<1
n Xn,n
= P [X1,n ≤ tXn,n ]
 θ  ty
n(n − 1)  y x n−1
= − dx dy
θ2 θ θ

0 0

= 1 − (1 − t)n−1 I(0,1) (t) + I[1,∞) (t)

por lo tanto la función de densidad correspondiente no depende de θ. Entonces


(1) (2)
Tn y Tn son estadı́sticamente independientes.

2.2.4 Varianza mı́nima, un requisito de máxima precisión


La variabilidad es en esencia inherente a la Estadı́stica, su razón y su objeto.
El poder conocer su comportamiento, el poder cuantificarla y en muchos casos
el poderla mantener bajo control son propósitos deseables y además viables.
84 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Los estimadores surgidos de esa condición de variabilidad, heredan esa misma


naturaleza, sólo que para éstos la precisión en su papel de estimar parámetros
es reconocida a través de su variabilidad. Por ello la variabilidad medida por
medio de la varianza se convierte en un criterio de examen de estadı́sticas, pues
evidentemente es más preciso aquel estimador que tenga menor varianza, pues
tiene la capacidad de producir estimaciones más concentradas. Esta sección se
enfoca hacia este requisito.

Definición 2.2.24. Siendo Tn y Tn dos estimadores insesgados para θ, basa-


dos en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función
de densidad fX (x, θ), se dice que Tn es uniformemente mejor que Tn si
Vθ [Tn ] ≤ Vθ [Tn ], para todo θ ∈ Θ ⊂ R.

Definición 2.2.25. Un estimador Tn∗ = t∗ (X1 , X2 , . . . , Xn ) basado en una


muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad
fX (x, θ), r(θ) una función de θ, es insesgado de varianza uniformemente
mı́nima UMVUE para la imagen de θ bajo la función r si y sólo si Tn∗ es
un estimador insesgado para la imagen de θ bajo r y Vθ [Tn∗ ] ≤ Vθ [Tn ] siendo
Tn = t(X1 , X2 , . . . , Xn ) cualquier otro estimador insesgado para la imagen de
θ bajo la función r.

Teorema 2.2.9 (Teorema de Rao-Blackwell). Siendo X1 , X2 , . . . , Xn una


muestra aleatoria de una población con función de densidad fX (x, θ), r(θ) una
(1) (2)
función de θ, y Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), . . . ,
(m)
Tn = tm (X1 , X2 , . . . , Xn ) estadı́sticas conjuntamente suficientes, y además
siendo la estadı́stica Vn = t(X1 , X2 , . . . , Xn ) un estimador insesgado para la
imagen de θ bajo la función r y Tn∗ = t∗ (X1 , X2 , . . . , Xn ) un estimador tal que
la estimación t∗n se determina como

t∗n = Eθ [Vn |Tn(1) , Tn(2) , . . . , Tn(m) ]

entonces,

1. Tn∗ es una estadı́stica, función de estadı́sticas suficientes sólamente

2. Eθ [Tn∗ ] = r(θ)

3. Vθ [Tn∗ ] ≤ Vθ [Vn ]

Ejemplo 2.2.12. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución de Bernoulli de parámetro θ.
(1) n
A partir de Tn = X1 , como un estimador insesgado para θ y de Tn = Xi
i=1
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 85

una estadı́stica suficiente, se determina la estimación t∗n = Eθ [Tn |Tn ].


(1)

 

n
n P θ X 1 = 0, X i = t 1
Pθ X1 = 0 | X i = t1 =  n i=1 

i=1 Pθ X i = t1
i=1
 

n
Pθ X1 = 0, X i = t1
=  n i=2 

Pθ X i = t1
i=1
n−1 t
(1 − θ) t1 (θ) 1 (1 − θ)n−1−t1
= n
t1 (θ) (1 − θ)
t1 n−t1

n − t1
=
n

 

n

n Pθ X1 = 1, X i = t1
Pθ X1 = 1 | X i = t1 =  n i=1 

i=1 Pθ X i = t1
i=1
 
n
Pθ X1 = 1, X i = t1 − 1
=  n i=2 

Pθ X i = t1
i=1
 n−1 t −1
θ θ 1
(1 − θ)n−1−t1 +1 t1
= t1 −1 n t =
t1 θ (1 − θ)
1 n−t 1 n

luego
   

n
n − t1 t1
Eθ X1 | Xi = t1 = 0. + 1.
i=1
n n

en consecuencia

1
n
Tn∗ = Xi
n i=1
θ(1 − θ)
V [Tn ] = θ(1 − θ) > V [Tn∗ ] =
n
Definición 2.2.26. Sea X una variable aleatoria cuya función de densidad es

fX (x, θ) tal que ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R.
∂θ
La información de Fisher acerca del parámetro θ en la variable aleatoria X,
86 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

I(θ) se define como


 2 

I(θ) = Eθ ln fX (X, θ)
∂θ
2
2 ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R la información

Nota. Si ∂θ
de Fisher acerca del parámetro θ, en la variable aleatoria X, también puede
definirse como
 2 

I(θ) = −Eθ ln f X (X, θ)
∂θ2
1 (x−θ)2
Ejemplo 2.2.13. Sea fX (x, θ) = √ e− 2σ2 con σ conocido.
2πσ
√ 1
ln fX (x, θ) = − ln σ − ln 2π − 2 (x − θ)2

 
∂ x−θ
ln fX (x, θ) =
∂θ σ2
 2
X −θ 1

I(θ) = Eθ 2
= 4 Eθ (X − θ)2
σ σ
Vθ (X) 1
= 4
= 2
σ σ
Definición 2.2.27. La información de Fisher acerca del parámetro θ en
la muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad
fX (x, θ) se define como
⎡ 2 ⎤
n

Eθ ⎣ ln fX (Xi , θ) ⎦
∂θ i=1

y es equivalente a nI(θ), siendo I(θ) la información de Fisher acerca del pará-


metro θ en la población, cuya función de densidad es fX (x, θ).
Definición 2.2.28. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x, θ) y Tn = t(X1 , X2 , . . . , Xn ) una estadı́stica. Se
habla de un caso regular de estimación o de cumplimiento de condi-
ciones de regularidad cuando el modelo escogido para representar el compor-
tamiento de la población y la estadı́stica en consideración cumplen las siguientes
condiciones:

1. ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R.
∂θ
2. La información de Fisher acerca del parámetro θ en la población I(θ) es
finita para todo θ ∈ Θ.
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 87

3. Si la variable X que representa a la población es continua


  n   n
∂ ∂
··· fX (xi , θ)dx1 . . . dxn = · · · fX (xi , θ)dx1 . . . dxn
∂θ i=1
∂θ i=1

análogamente cuando X es discreta.


4. Si la variable X que representa a la población es continua
  n

· · · t(x1 , x2 , . . . , xn ) fX (xi , θ)dx1 dx2 . . . dxn
∂θ i=1
  n

= · · · t(x1 , x2 , . . . , xn ) fX (xi , θ)dx1 dx2 . . . dxn
∂θ i=1

análogamente cuando X es discreta.


Teorema 2.2.10 (Desigualdad de Cramer-Rao). Sea X1 , X2 , . . . , Xn una
muestra aleatoria de una población con función de densidad fX (x, θ), r(θ) una
función de θ, Tn = t(X1 , X2 , . . . , Xn ) un estimador para la imagen de θ bajo la
función r y Bθ (Tn ) el sesgo de Tn . Dentro de un caso regular de estimación,

(r (θ) + Bθ (Tn ))2
Eθ (Tn − r(θ))2 ≥
nI(θ)

con Bθ (Tn ) = Bθ (Tn ).
∂θ
Es claro que dentro de un caso regular de estimación, si Tn es un estimador
insesgado para la imagen de θ bajo una función r, la desigualdad de Cramer-Rao
adquiere la versión particular
(r (θ))2
Vθ (Tn ) ≥
nI(θ)
correspondiente a la versión más difundida entendida como la determinación de
una cota para la varianza de cualquier estimador insesgado para la imagen de
θ bajo una función r, conocida precisamente como la cota de Cramer-Rao.
Corolario 2.2.10.1. La igualdad en el teorema 2.2.10 se da cuando
 n 

ln fX (xi , θ) = K(θ, n) (t(x1 , x2 , . . . , xn ) − r(θ))
∂θ i=1

en este caso Tn es un UMVUE para la imagen de θ bajo la función r.


En la desigualdad de Schwarz E[(XY )2 ] = E[X 2 ]E[Y 2 ] cuando Y = kX,

[Bθ (Tn ) + r (θ)]
2
siendo k una constante. Por lo tanto Eθ (Tn − r(θ))2 =
nI(θ)
cuando existe una constante tal que,
n

ln fX (xi , θ) = k(tn − r(θ))
∂θ i=1
88 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

En esta oportunidad se menciona la estimación máximo-verosı́mil en relación


con la consistencia asintóticamente normal, como una propiedad particular
que en casos especiales presentan los estimadores construidos mediante este
procedimiento. El siguiente teorema da fe de ello.
Teorema 2.2.11. En un caso regular de estimación, si Tn es el estimador
máximo verosı́mil para la imagen de θ bajo la función r , Tn es un estimador
CAN de tal manera que
 
√ d 1
n(Tn − r(θ)) −
→ N 0,
I(θ)
1 n
Ejemplo 2.2.14. Siendo Pn = Xi el MLE para θ en el caso de una
n i=1
población de Bernoulli de parámetro θ, Pn es un estimador CAN para θ. Esto
es
√ d
n(Pn − θ) −→ N (0, θ(1 − θ))

n
Para el modelo de Bernoulli y la estadı́stica Xi se cumplen las condiciones
i=1
de regularidad, entonces
fX (x, θ) = θx (1 − θ)1−x I{0,1} (x)
ln fX (x, θ) = x ln θ + (1 − x) ln(1 − θ)
∂ x 1−x
ln fX (x, θ) = −
∂θ θ 1−θ
 2 
X 1−X
I(θ) = Eθ −
θ 1−θ
1  
2
= 2 Eθ ((1 − θ)X − θ(1 − θ))
θ (1 − θ)2

1 6 7 Vθ (X)
= 2 Eθ (X − θ)2 = 2
θ (1 − θ)2 θ (1 − θ)2
θ(1 − θ) 1
= 2 =
θ (1 − θ)2 θ(1 − θ)
luego
√ d
n(Pn − θ) −
→ N (0, θ(1 − θ))
(2)
Definición 2.2.29. La eficiencia relativa de Tn = t2 (X1 , X2 , . . . , Xn ) con
(1)
respecto a Tn = t1 (X1 , X2 , . . . , Xn ), estimadores insesgados para la imagen de
θ bajo una función r, basados en una muestra aleatoria X1 , X2 , . . . , Xn de una
población con función de densidad fX (x, θ), corresponde al cociente
(1)
Vθ [Tn ]
(2)
Vθ [Tn ]
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 89

Siendo la eficiencia relativa un elemento de comparación entre dos esti-


madores, pueden involucrarse elementos adicionales para enriquecer la men-
cionada comparación, como por ejemplo el tamaño de la muestra. Suponiendo
(1) (2)
que Tn y Tm seandos estimadores  para la imagen
 de θ bajo  una función r,
(1) σ12 (θ) (2) σ22 (θ)
tales que Tn ∼ N r(θ), y Tm ∼ N r(θ), asumiendo que
n m
(2) (1)
σ12 (θ) < σ22 (θ), la eficiencia relativa de Tm con respecto a Tn corresponde a
σ12 (θ)
n
σ22 (θ)
m
(2) (1)
En estos términos, Tm será tan eficiente como Tn en la medida que la citada
σ 2 (θ) n
eficiencia tenga un valor igual a uno; caso en el cual 12 = . Teniendo en
σ2 (θ) m
n
cuenta que σ12 (θ) < σ22 (θ), entonces < 1. Si en gracia a esta consideración
m
2
σ (θ) (2)
el valor del cociente 12 se asume en 0.9 quiere decir que Tm requiere una
σ2 (θ)
muestra de un tamaño cercano al 11.11% mayor que el tamaño de la mues-
(1)
tra n calculado con base en el estimador Tn para tener igual desempeño, o
(1)
igualmente que a Tn sólo le basta contar con un 90% del tamaño de muestra
(2)
calculado para Tm .
(2)
Definición 2.2.30. La eficiencia relativa asintótica de Tn con respecto a
(1) (1) (2)
Tn , siendo Tn y Tn estimadores CAN, para la imagen de θ bajo una función
r, con varianzas σ1 (θ) y σ22 (θ) respectivamente, es el cociente
2

σ12 (θ)
σ22 (θ)
Definición 2.2.31. En un caso regular de estimación la eficiencia de un
estimador Tn insesgado para la imagen de θ bajo una función r se define como
(r (θ))2 / nI(θ)
Efθ (Tn ) =
Vθ [Tn ]
Definición 2.2.32. En un caso regular de estimación, si Tn un estimador
insesgado para la imagen de θ bajo una función r , Tn se denomina estimador
eficiente o BRUE (best regular unbiased estimator) para la imagen de
θ bajo la función r si Efθ (Tn ) = 1.
Nota. Todo BRUE es un UMVUE, mas no todo UMVUE es BRUE.
Definición 2.2.33. En un caso regular de estimación, la eficiencia asintótica
de un estimador Tn insesgado para la imagen de θ bajo una función r, se define
como
lim Efθ (Tn )
n→∞
90 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Ejemplo 2.2.15. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad
1 −1x
fX (x, θ) = e θ I(0,∞) (x)
θ
1
Teniendo en cuenta que E[X] = θ, V [X] = θ2 , I(θ) = θ2 , y que X n es MLE
para θ, entonces

θ2
E[X n ] = θ V [X n ] =
n
de donde,
1 θ2
1
n 2
Efθ (X n ) = θ2 = n2 = 1
θ θ
n n

luego X n es un BRUE y UMVUE para θ.

2.2.5 Completez, un requisito de la distribución muestral


El requerimiento de completez, es el menos intuitivo de los requisitos. Tomado
del análisis funcional, en lo concerniente a un conjunto completo de elementos
de un espacio de Hilbert, se adapta y configura una formalidad que puede clasi-
ficarse como un requisito referente a la familia de densidades correspondiente a
la distribución muestral de la estadı́stica en examen.

Definición 2.2.34. La familia de densidades {fX (x, θ)|θ ∈ Θ} se dice que es


una familia de densidades completa si la condición

Eθ [z(X)]

para todo θ ∈ Θ, implica que Pθ [z(X) = 0] = 1 para todo x tal que fX (x, θ) > 0.

Definición 2.2.35. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ) y Tn = t(X1 , X2 , . . . , Xn ) una estadı́stica. Tn
se dice que es una estadı́stica completa para el parámetro θ si la función de
densidad fTn (t) pertenece a una familia de densidades completa.

Ejemplo 2.2.16. La familia de densidades


!   "
n
fX (x, θ) = (1 − θ) θ | θ ∈ (0, 1)
n−x x
x

es una familia de densidades completa. Es ası́ puesto que si

Eθ [z(X)] = 0
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 91


n  
n j
0= z(j) θ (1 − θ)n−j
j=1
j
n   j
n θ
0= z(j) (1 − θ)n
j=1
j 1 − θ
n    
n j θ
0= z(j) α , α=
j=1
j 1−θ

luego
     
n 0 n 1 n n
0 = z(0) α + z(1) α + · · · + z(n) α
0 1 n

y la única forma de tener esta igualdad es cuando

z(0) = z(1) = · · · = z(n) = 0

entonces Eθ [z(X)] = 0 implica que z(j) = 0, para j = 0, 1, 2, . . . , n. Por lo


tanto, la familia de densidades Binomial es completa.

Ejemplo 2.2.17. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


con distribución de Bernoulli de parámetro θ, la estadı́stica


n
Xi
i=1


n
es una estadı́stica completa para θ. En efecto, Xi ∼ Bin(n, θ), como se
i=1
confirmó la familia de densidades Binomial es completa, entonces la estadı́stica
n
Xi es completa.
i=1

Ejemplo 2.2.18. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población


Uniforme en el intervalo (0, θ), Xn,n es una estadı́stica completa para θ. En
efecto, como
 y
1 1
FX (y) = dx + I(0,∞) (y) = yI(0,θ)(y) + I(0,∞) (y)
0 θ θ

la función de densidad del máximo de la muestra es

fXn,n (y) = n[FX (y)]n−1 fX (y)


 n−1
1 1
=n y I (y)
θ θ (0,θ)
n
= n y n−1 I(0,θ) (y)
θ
92 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Partiendo de la condición
 θ
n n−1
Eθ [z(Y )] = z(y) y dy = 0
0 θn
 θ
n
= n z(y)y n−1 dy = 0
θ 0

y utilizando el Teorema Fundamental del Cálculo se obtiene que

z(θ)θn−1 = 0 es decir z(θ) = 0 para todo θ > 0

con lo cual se concluye que Xn,n es una estadı́stica completa para θ, porque
Eθ [z(X)] = 0 implica que z(y) = θ para 0 < y < θ.
Ejemplo 2.2.19. La familia de densidades
! "
1 1
fX (x, θ) = e− θ x I(0,∞) (x) | θ > 0
θ
es una familia completa.
 ∞
1 1
Eθ [z(Tn )] = 0 = z(t)e− θ t dt
0 θ

expresión que corresponde a la transformada de Laplace de una función z(t) con


θ > 0. Si esta transformación es cero para todo θ > 0 entonces z debe ser la
función nula.
La familia exponencial de densidades ha mostrado un conjunto de propiedades
interesantes. El siguiente teorema viene a ampliar ese conjunto incluyendo una
propiedad adicional que integra la suficiencia y la completez en esta familia.
Teorema 2.2.12. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x, θ), función de densidad que pertenece a la familia

n
exponencial de densidades, la estadı́stica natural de la familia d(Xi ) es una
i=1
estadı́stica suficiente y completa para θ.
El concepto de completez no dispone de la autonomı́a de otros requisitos en
el proceso de facultar estadı́sticas, por ello a priori no es fácil intuir su senti-
do ni tampoco comprender su inclusión dentro de una lista de requisitos. La
integración de la completez al conjunto de requerimientos responde a que su
participación en la configuración de un UMVUE, participación expresa en el
enunciado del Teorema de Lehmann-Scheffé, es obligatoria para la sustentación
de uno de los argumentos de la demostración del mismo; realmente su impor-
tancia radica en este hecho. Se puede afirmar que la completez es un requisito
indirecto para el examen o mejoramiento de la precisión de un estimador.
Como exordio al valioso teorema de Lehmann-Scheffé y como argumento en
su demostración se presenta el siguiente teorema.
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 93

Teorema 2.2.13. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ), θ ∈ Θ, r(θ) una función del parámetro θ y
Tn = t(X1 , X2 , . . . , Xn ) un estimador insesgado para la imagen de θ bajo la
función r. Si Tn es una estadı́stica completa para θ, entonces Tn es el único
estimador insesgado de la imagen de θ bajo la función r.

Teorema 2.2.14 (Teorema de Lehmann-Scheffé). Sea X1 , X2 , . . . , Xn una


muestra aleatoria de una población con función de densidad fX (x, θ) y r una
(1) (2)
función de θ. Si Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), . . . ,
(m)
Tn = tm (X1 , X2 , . . . , Xn ) es una colección de estadı́sticas conjuntamente su-
ficientes y completas para θ y si Tn∗ = t∗ (Tn , Tn , . . . , Tn ) es un estimador
(1) (2) (m)

insesgado para la imagen de θ bajo la función r entonces Tn∗ es UMVUE para


la imagen de θ bajo la función r.

Ejemplo 2.2.20. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución de Poisson de parámetro θ, X n es UMVUE para θ.
Esta afirmación es cierta, teniendo en cuenta lo siguiente:

1. La familia de densidades a la cual pertenece la densidad de Poisson es una


familia exponencial de densidades. Por lo tanto


n
Xi
i=1

es una estadı́stica suficiente y completa para θ tal como lo garantiza el


teorema 2.2.12.

n
2. X n es una función de la estadı́stica Xi , esta última suficiente y com-
i=1
pleta para θ.

3. X n es un estimador insesgado para θ.

En virtud de estos resultados y con el auxilio del teorema del Lehmann-Scheffé


X n es UMVUE para θ.
Por otra parte, si el interés se centra en estimar la imagen de θ bajo la función
r(θ) = e−θ , donde e−θ = P [X = 0], el proceso de determinar un estimador
UMVUE para e−θ requiere de algunos pasos especiales.

1. I{0} (X1 ) es un estimador insesgado para e−θ , porque




Eθ I{0} (X1 ) = 0.P [X1 ≥ 1] + 1.P [X1 = 0] = e−θ

 

n 
n
2. Eθ I{0} (X1 ) | Xi es una estimación insesgada función de xi con-
i=1 i=1
94 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

forme al teorema de Rao-Blackwel (2.2.9), página 84.




n n
Eθ I{0} (X1 ) | Xi = 0.Pθ X1 ≥ 1 | Xi = t
i=1 i=1


n
+ 1.Pθ X1 = 0 | Xi = t
i=1
 

n

n Pθ X1 = 0, Xi = t
Pθ X1 = 0 | Xi = t =  n i=1 

i=1 Pθ Xi = t
i=1
 

n
Pθ X1 = 0, Xi = t
=  n i=2 

Pθ Xi = t
i=1
n 

Pθ [X1 = 0]Pθ Xi = t
=  n i=2 

Pθ Xi = t
i=1
t
Como cada Xi ∼ P oiss(θ) entonces MXi (t) = eθ(e −1) , i = 1, 2, . . . , n.

n t
Si Y = Xi , entonces MY (t) = e(n−1)θ(e −1) , luego Y ∼ P oiss((n−1)θ).
i=2

n t
−1)
Si Z = Xi , entonces MZ (t) = enθ(e , luego Z ∼ P oiss(nθ).
i=1
por lo tanto,
  n

n
e−θ e−(n−1)θ [(n − 1)θ]t /t! n−1 i=1
xi
Pθ X1 = 0 | Xi = t = =
i=1
e−nθ (nθ)t /t! n
  n

n  n−1 xi
Entonces Eθ I{0} (X1 ) | Xi = n i=1 , luego la estadı́stica
i=1

  n
Xi
n−1 i=1

n
es un estimador insesgado función de una estadı́stica suficiente y completa,
por lo tanto es UMVUE para e−θ .
Ejemplo 2.2.21. Determinar un UMVUE para θ cuando el modelo asumido
para representar la población es un modelo Exponencial negativo,

fX (x, θ) = θe−θx I(0,∞) (x)


2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 95


n
1. fX (x, θ) pertenece a la familia exponencial de densidades, Xi es una
i=1
estadı́stica suficiente y completa para θ.


n 1
2. X n es una función de Xi , X n es un estimador insesgado para , por
i=1 θ
1
lo tanto X n es un UMVUE para
θ
c
El estimador para θ se intuye como 
n con c constante, entonces
Xi
i=1

⎡ ⎤
   ∞ 
⎢ c ⎥ 1 1
n

Eθ ⎣  ⎥
n ⎦ = θ = c Eθ T = c t
fT (t)dt, T = Xi
Xi 0 i=1
i=1

como la suma de variables aleatorias con distribución exponencial es una variable


aleatoria con distribución Gama, se tiene que
⎡ ⎤

⎢ c ⎥ ∞
1 1 n n−1 −θt
Eθ ⎢
⎣n
⎥=c
⎦ θ t e dt
o t Γ(n)
Xi
i=1
 ∞
1
=c θn tn−2 e−θt dt
Γ(n) 0
 ∞

= un−2 e−u du utilizando la sustitución u = θt
Γ(n) 0
cθΓ(n − 1) cθ
= = n>1
Γ(n) n−1

n−1
Un estimador insesgado para θ es 
n , el cual es una estadı́stica función de
Xi
i=1
una estadı́stica suficiente y completa. Por ser insesgado para θ, es UMVUE
para el parámetro θ.

Expuestos, de manera separada por razones académicas, los criterios más


conocidos para facultar estadı́sticas como estimadores de parámetros, le resta
entonces al lector con el apoyo de los ejercicios propuestos y de los que encuentre
en otros textos, la realización de una actividad de sı́ntesis conceptual integradora
de los requisitos exigibles a los estimadores, respaldada por los enunciados de
los teoremas incluidos y por los argumentos que los garantizan, argumentos que
se presentan en la siguiente sección.
96 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

2.2.6 Robustez, un requisito de estabilidad


Este capı́tulo cierra con una breve exposición de un requisito denominado ro-
bustez, término acuñado por Box, pero cuya idea ya habı́a sido expresada mu-
cho antes por Pearson, requisito que en ciertas oportunidades es exigible a al-
gunos estimadores y en forma general a algunos procedimientos estadı́sticos,
que adquiere un destacado interés cuando no existe plena afinidad entre el com-
portamiento global e individual de las observaciones de la muestra y el modelo
postulado como modelo original de las observaciones, o cuando no hay coheren-
cia total con los supuestos admitidos. Los requisitos presentados en el desarrollo
de este capı́tulo de ninguna manera controvierten la afinidad o incompatibilidad
entre las observaciones de la muestra y el modelo original. El modelo define un
ambiente y bajo él, una estadı́stica exhibe sus atributos y desatinos en la misión
de ser un estimador del parámetro caracterı́stico del modelo.

Definición 2.2.36. Un procedimiento o método estadı́stico se denomina ro-


busto, si su desempeño es imperturbable a ligeras discordancias del modelo
original o de los supuestos asumidos con la información acopiada. Particu-
larmente un estimador Tn basado en una muestra aleatoria X1 , X2 , . . . , Xn , de
una población con función de densidad fX (x, θ), recibe la denominación de es-
timador robusto, si su desempeño permanece inalterado ante discrepancias
con el modelo original.

Que el desempeño de un estimador o de un método estadı́stico sea inaltera-


ble frente a ligeras discordancias con el modelo o con los supuestos, es decir que
sea robusto, es en sı́ una propiedad deseable. Sin embargo es un criterio vago
porque es impreciso el término desempeño del estimador , como igualmente es
impreciso el alejamiento del modelo o de los supuestos y como también lo es
el no cumplimiento de los supuestos. El alejamiento de un modelo puede tener
varias facetas: presencia de outliers, valores insólitos bajo el modelo original,
discrepancias en la forma de la densidad, como el apuntamiento y la simetrı́a en-
tre otras. El no cumplimiento de los supuestos por su parte, podrı́a ser taxativo:
no se cumplen unas condiciones sobre las cuales un procedimiento estadı́stico se
ha estructurado, ¿pero en qué medida no se cumplen los supuestos?; por ejemplo
la homoscedasticidad, más alla de la definición clara y precisa de igualdad de
varianzas, ¿cuándo k poblaciones no tienen la misma variabilidad?.
Suponiendo que se desea estimar el promedio poblacional, valor espera-
do de una variable aleatoria, que el estimador elegido es X n , basado en una
muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad
fX (x, θ), y que asumido el modelo original, X n posee propiedades inmejorables,
propiedades válidas únicamente bajo la regencia del modelo adoptado, ante la
presencia de discrepancias con el modelo puede menoscabarse su idoneidad, en
cuyo caso se habları́a de la no robustez del estimador.
Las discrepancias con el modelo se pueden teorizar de variadas formas, una
de ellas en forma particular a través de la contaminación.

Definición 2.2.37. Una variable aleatoria Xc se dice que es una variable


2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 97

aleatoria contaminada, si su función de densidad fXc (x, θ) es un combi-


nación lineal de dos o más funciones de densidad,


k 
k
fXc (x, θ) = j fXj (x), siendo j = 1
j=1 j=1

Concretamente si la función de densidad del modelo original es fX (x, θ), y


las discrepancias con el modelo motivan la consideración de una nueva función
de densidad para la variable aleatoria X, de la forma

fXc (x, θ) = (1 − )fX (x, θ) + g(x)

elegida g(x) de manera que sea la responsable de generar los valores insólitos,
bajo el modelo original cuya función de densidad es fX (x, θ), entonces X n es
altamente sensible frente a las discrepancias citadas. Esa falta de robustez de
la media de la muestra, ha sido paliada por eliminación de los valores más
extremos, o por la utilización de la medianade la muestra, menos afectada por
dichos valores.
En general son varios los mecanismos de enfrentar la no robustez, sólo que
dentro del contexto del capı́tulo se desea en un sentido destacar uno basado en
la idea de excluir valores extremos, o de reemplazarlos para eliminar los outliers
o amortiguar su efecto: los estimadores L y en otro sentido hacer una ligera
mención de los estimadores M.

Definición 2.2.38. Sea X1,n , X2,n , . . . , Xn,n , una muetra ordenada de una po-
blación con función de densidad fX (x, θ), θ ∈ Θ ⊆ R, θ un parámetro de loca-
lización. Un estimador L para θ, es una estadı́stica de la forma


n
Tn = cn,i Xi,n
i=1

donde los coeficientes cn,i , i = 1, 2, . . . , n están determinados.

Son ejemplos de estimadores L, el promedio, el mı́nimo y el máximo de


la muestra, pero deben destacarse, respondiendo a esta idea de exclusión o
reemplazo de valores extremos, los promedios recortados y los promedios
“windsorizados”.
Un α-promedio recortado, es el promedio aritmético de las n − 2[nα] es-
tadı́sticas de orden centrales, con 0 < α < 12 , es decir que se elimina la fracción
α de las observaciones inferiores de la muestra e igualmente se elimina la frac-
ción α de las observaciones superiores de la muestra y con la restante fracción
de observaciones 1 − 2α, se determina el promedio aritmético que justamente se
adjetiva como recortado. Su expresión corresponde a

1 
n−[nα]

r X n,α = Xi,n
n − 2[nα]
i=[nα]+1
98 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Un α-promedio windsorizado, no elimina la fracción α de las observaciones infe-


riores ni la fracción α de las observaciones superiores de la muestra, 0 < α < 12 ,
sino que reemplaza cada una de ellas por las estadı́sticas de orden X[nα]+1,n y
Xn−[nα],n respectivamente y luego considera el promedio aritmético de estas n
variables como lo indica su expresión,
⎧ ⎫
1⎨  ⎬
n−[nα]

w X n,α = [nα]X[nα]+1,n + Xi,n + [nα]Xn−[nα],n


n⎩ ⎭
i=[nα]+1

Por otra parte un estimador M para θ, basado en una muestra aleatoria


X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ), es un esti-
mador que minimiza la suma

n
H(Xi − t)
i=1

siendo H una función predeterminada, o es un estimador que es solución de la


ecuación

n
h(Xi − t) = 0
i=1

igualmente para una función h predeterminada. Entonces el estimador M está


dependiendo de una elección de una función H o h según sea el fin. Como casos
especiales se pueden construir estimadores M correspondientes a los estimadores

máximo-verosı́miles tomando h(x, t) = − ln fX (x, θ) como también construir
∂t
estimadores M correspondientes a los denominados estimadores de mı́nimos
cuadrados tomando H(x, t) = (x − t)2 , estimadores muy corrientes en los
Modelos lineales y en el Diseño experimental.
Finalmente, es pertinente señalar que en la actualidad se utilizan proce-
dimientos de mejoramiento de estimadores, procedimientos que requieren de
extenso uso de cómputo estadı́stico, conocidos como métodos de remuestreo, de
los cuales se destacan el jackknifing y el boostraping, consistentes en pocas pa-
labras en la utilización sistemática de todas las posibles submuestras obtenidas
removiendo observaciones de la muestra original y calculando la estimación co-
rrespondiente.

2.3 Demostración de los teoremas del capı́tulo


Demostración (Teorema 2.1.1). En primer lugar, asumiendo que la función

r(θ) = θ∗ es una función uno a uno, con dominio Θ y recorrido Θ , entonces
θ = r−1 (θ∗ ). Como la función de verosimilitud L(θ; x1 , x2 , . . . , xn ) tiene máximo
en el punto θ = tn es equivalente a afirmar que la función tiene máximo en el
punto r−1 (θ∗ ) = tn , es decir en θ∗ = r(tn ). De esta manera el MLE de θ∗ es
r(Tn ).
2.3. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 99

En segundo lugar, si la función r(θ) no es una función uno a uno, el prin-


cipio de invarianza se mantiene. Como se afirmó la función de verosimilitud
tiene máximo en el punto θ = tn . Varios valores de θ tienen como imágen a
θ∗ = r(tn ), uno de ellos hace máxima a L(θ; x1 , x2 , . . . , xn ) precisamente θ = tn .
En conclusión, cualquiera sea el caso el MLE de θ∗ = r(θ) es r(Tn ).

Demostración (Teorema 2.1.4). Como preparación a la demostración, hay


que tener presente que el momento central de orden r, μr = E [(X − μ)r ] puede
expresarse en términos de los momentos ordinarios, de menor orden. Utilizando
el teorema binomial se logra dicho propósito.
⎡ ⎤
r    r  
r r
μr = E [(X − μ)r ] = E ⎣ X j (−μ)r−j ⎦ = (μj )j (−μ)r−j
j=0
j j=0
j

Igualmente el momento muestral central de orden r, puede expresarse en términos


de los momentos muestrales ordinarios de menor orden.
r  
1  r 1  r
n n
Xi − X n = Xij (−X n )r−j
n i=1 n i=1 j=0 j
n  
r
1 r j r−j
= Xi (−X n )
j=0
n i=1 j
r    n
r 1
= (−X n )r−j Xij
j=0
j n i=1

 r  j
r 
= Mj (−X n )r−j
j=0
j

como el momento μ2r existe, los momentos μs y μs , s ≤ 2r, existen. El teorema
1.4.5, página 14, y el teorema 2.1.3, página 61 garantizan que

r   r  
r   j p  r   j
Mr = Mj (−X n )r−j −
→ μj (−μ)r−j
j=0
j j=0
j

Demostración (Teorema 2.2.1). Este teorema coincide con el teorema 1.6.1,


vista la estadı́stica de orden X[np]+1,n como estimador de xp .

Demostración (Teorema 2.2.2). La demostración se realizará en dos senti-


dos. En primer lugar se supone la suficiencia de la estadı́stica para concluir que
la función de verosimilitud se puede expresar como el producto de factores en la
forma indicada. La segunda parte se desarrolla en sentido contrario.
Se considera únicamente el caso discreto, porque el caso continuo requiere de
consideraciones adicionales; sin embargo las ideas y argumentos utilizados son
similares para los dos casos.
100 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Antes de abordar la demostración, como X1 , X2 , . . . , Xn constituyen una


muestra aleatoria,

P [X1 = x1 , X2 = x2 , . . . , Xn = xn ] = fX (x1 , θ)fX (x2 , θ) · · · fX (xn , θ)


= L(θ; x1 , x2 , . . . , xn )

Para efectos de notación, al conjunto de valores (x1 , x2 , . . . , xn ) tales que


t(x1 , x2 , . . . , xn ) = t,llamado un entorno de Tn , se denota como A(t), con
lo cual Pθ [Tn = t] = L(θ; x1 , x2 , . . . , xn ).
A(t)
En primer término, como se habı́a manifestado, se parte del supuesto de que
Tn es una estadı́stica suficiente para θ es decir que

Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t]

no depende de θ, probabilidad que puede denotarse como h(x1 , x2 , . . . , xn ) porque


únicamente depende de los valores particulares x1 , x2 , . . . , xn . Por otra parte,
la probabilidad Pθ [Tn = t] al depender del valor t y de θ puede denotarse como
g(t, θ), con lo cual

L(θ; x1 , x2 , . . . , xn ) = Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn ]
= Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] Pθ [Tn = t]
= h(x1 , x2 , . . . , xn )g(t, θ)

En segundo término, partiendo del supuesto de que

L(θ; x1 , x2 , . . . , xn ) = g(t, θ)h(x1 , x2 , . . . , xn )

y considerando un valor particular t (evidentemente si (x1 , x2 , . . . , xn ) ∈


/ A(t)
Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] = 0)

Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] = Δ

Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn ] L(θ; x1 , x2 , . . . , xn )
Δ= = 
Pθ [Tn = t] L(θ; x1 , x2 , . . . , xn )
A(t)

g(t, θ)h(x1 , x2 , . . . , xn ) g(t, θ)h(x1 , x2 , . . . , xn )


=  = 
h(x1 , x2 , . . . , xn )g(t, θ) g(t, θ) h(x1 , x2 , . . . , xn )
A(t) A(t)

h(x1 , x2 , . . . , xn )
= 
h(x1 , x2 , . . . , xn )
A(t)

que no depende de θ.
Demostración (Teorema 2.2.4). La demostración de este teorema es muy
similar a la demostración del teorema que hace referencia al criterio de
2.3. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 101

factorización de Fisher-Neyman para el caso de una estadı́stica suficiente uni-


dimensional.
Para efectos de la demostración, se introducen algunos elementos como el
vector T = (Tn , Tn , . . . , Tn ) , el conjunto A(t) que para este caso se re-
(1) (2) (m)

fiere al conjunto de valores (x1 , x2 , . . . , xn ) tales que t1 (x1 , x2 , . . . , xn ) = t1 ,


t2 (x1 , x2 , . . . , xn ) = t2 , . . . , tm (x1 , x2 , . . . , xn ) = tm y t corresponde al vector
t = (t1 , t2 , . . . , tm ) , con lo cual
  
Pθ Tn(1) = t1 , Tn(2) = t2 , . . . , Tn(m) = tm = Pθ [T = t] = L(θ; x1 , x2 , . . . , xn )
A(t)

El desarrollo de la demostración a partir de estos elementos es el mismo que se


realizó para el caso de una estadı́stica suficiente unidimensional.

Demostración (Teorema 2.2.5). Siendo Tn una estadı́stica suficiente para


θ, entonces según el criterio de factorización de Fisher-Neyman,

L(θ; x1 , x2 , . . . , xn ) = g(t(x1 , x2 , . . . , xn )); θ)h(x1 , x2 , . . . , xn )

En el caso de ser Tn∗ = t∗ (X1 , X2 , . . . , Xn ) el único MLE de θ, entonces θ = t∗


hace máxima a L y por supuesto a g(t(x1 , x2 , . . . , xn )), luego t∗ es una función
de t(x1 , x2 , . . . , xn ).

Demostración (Teorema 2.2.9). En cuanto al punto 1, afirmar que Tn∗ es


una estadı́stica función de estadı́sticas suficientes sólamente, es consecuencia del
(1) (2) (m)
hecho de ser Tn , Tn , . . . , Tn , una colección de estadı́sticas conjuntamente
suficientes; debido a su construcción Tn∗ es una estadı́stica suficiente por ser
función únicamente de dicha colección.
Con referencia al punto 2, se considera sólo el caso en el cual la variable
aleatoria que representa a la población es una variable continua; el caso discreto
es similar.   
(1) (2) (m)
Como el objeto es concluir que Eθ Eθ Vn |Tn , Tn , . . . , Tn = r(θ),
para facilitar la notación, la colección de estadı́sticas conjuntamente suficientes
se dispone en el vector aleatorio T = (Tn , Tn , . . . , Tn ) cuya función de
(1) (2) (m)

densidad es fT (t), siendo t = (t1 , t2 , . . . , tn ).


 ∞

Eθ [Vn |T ] = vn fVn |T (vn |t) dvn
−∞
 ∞  
fVn ,T (vn , t)
= vn dvn
−∞ fT (t)
5∞
vn fVn ,T (vn , t)dvn
= −∞ = c(t)
fT (t)

El valor esperado Eθ [Vn |T ] = c(t) es una función que depende únicamente de


102 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

los valores particulares de t.

Eθ [Eθ [Vn |T ]] = Eθ [c(T )]


 ∞ ∞  ∞
= ··· c(t)fT (t)dt1 dt2 · · · dtm
−∞ −∞ −∞
 ∞ ∞  ∞  ∞ 
= ··· vn fVn ,T (vn , t)dvn dt1 dt2 · · · dtm
−∞ −∞ −∞ −∞

5∞
porque −∞ vn fVn ,T (vn , t)dvn = c(t)fT (t), intercambiando apropiadamente el
orden de integración se tiene que
 ∞  ∞  ∞
Eθ [Eθ [Vn |T ]] = vn ··· fVn ,T (vn , t)dt1 dt2 · · · dtm dvn
−∞ −∞ −∞
 ∞
= vn fVn (vn )dvn = E[Vn ] = r(θ)
−∞
5∞ 5∞
porque −∞ · · · −∞ fVn ,T (vn , t)dt1 dt2 · · · dtm = fVn (vn ).
Para concluir el desarrollo de lo pertinente al punto 3, se parte de la conocida
adición de un cero, ası́



Vθ [Vn ] = Eθ (Vn − r(θ)2 ) = Eθ (Vn − c(T ) + c(T ) − r(θ))2



= Eθ (Vn − c(T ))2 + Eθ (c(T ) − r(θ))2


= Eθ (Vn − c(T ))2 + Vθ [c(T )]

puesto que Eθ [c(T )] = r(θ) y 2Eθ [(Vn − c(T ))(c(T ) − r(θ))] = 0.


Eθ [(Vn − c(T ))(c(T ) − r(θ))] = 0, como se deduce a continuación.


Eθ [(Vn − c(T ))(c(T ) − r(θ))] = Eθ [Vn c(T )] − r2 (θ) − Eθ c2 (T ) + r2 (θ)
= Eθ [c(T )(Vn − c(T ))] = Δ

 ∞  ∞  ∞  ∞
Δ= ··· c(t)(vn − c(t))fVn ,T (vn , t)dvn dt1 dt2 · · · dtm
−∞ −∞ −∞ −∞
 ∞  ∞  ∞  ∞ 
= ··· c(t) (vn − c(t))fVn ,T (vn , t)dvn dt1 dt2 · · · dtm
−∞ −∞ −∞ −∞

 ∞  ∞
(vn − c(t))fVn ,T (vn , t)dvn = vn fVn ,T (vn , t)dvn
−∞ −∞
 ∞
− c(t) fVn ,T (vn , t)dvn
−∞
= c(t)fT (t) − c(t)fT (t) = 0
2.3. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 103

por lo tanto Δ = Eθ [c(T )(Vn − c(T ))] = 0. Regresando al paso en el cual se


enunció que


Vθ [Vn ] = Eθ (Vn − c(T ))2 + Vθ [c(T )]
y teniendo en cuenta que


Eθ (Vn − c(T ))2 ≥ 0
entonces Vθ [c(T )] ≤ Vθ [Vn ] o Vθ [Eθ [Vn |T ]] ≤ Vθ [Vn ]. En sı́ntesis,
Vθ [Tn∗ ] ≤ Vθ [Vn ]
Demostración (Teorema 2.2.10). Esta demostración parte de la definición
de sesgo y utiliza las condiciones de regularidad como argumentos para su de-
sarrollo. Dado que Bθ (Tn ) = Eθ (Tn ) − r(θ),
Bθ (Tn ) + r(θ) = Eθ (Tn )
 ∞ ∞   
∞ n
= ··· t(x1 , · · · , xn ) fX (xi , θ) dx1 · · · dxn
−∞ −∞ −∞ i=1


como se trata de un caso regular de estimación, Bθ (Tn ) + r (θ) = Δ
∂θ
    
∞ ∞ ∞ n

Δ= ··· t(x1 , · · · , xn ) fX (xi , θ) dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1
     n
∞ ∞ ∞ n

= ··· t(x1 , · · · , xn ) ln fX (xi , θ) fX (xi , θ)dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1 i=1
  n 
∂ ) n ∂ )n )
puesto que fX (xi , θ) = ln fX (xi , θ) fX (xi , θ) porque
∂θ i=1 ∂θ i=1
d

g (x) 
 d
i=1

dx ln g(x) = g(x) , y por lo tanto g (x) = dx ln g(x) g(x).


Antes de continuar, es necesario demostrar que
 ∞  ∞  ∞  n
 n 

··· r(θ) ln fX (xi , θ) fX (xi , θ) dx1 · · · dxn = 0
−∞ −∞ −∞ ∂θ i=1 i=1

es nula dicha expresión porque


 ∞ ∞  ∞ n
 n 

r(θ) ··· ln fX (xi , θ) fX (xi , θ) dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1 i=1
 ∞ ∞  ∞ n

= r(θ) ··· fX (xi , θ)dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1
 ∞ ∞  ∞ n
∂ ∂
= r(θ) ··· fX (xi , θ)dx1 · · · dxn = r(θ) (1) = 0
∂θ −∞ −∞ −∞ i=1 ∂θ
104 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Continuando el desarrollo de la demostración y utilizando


)
n
L = L(θ; x1 , x2 , . . . , xn ) = fX (xi , θ),
i=1
 ∞  ∞  ∞  

Δ= ···
(t(x1 , · · · , xn ) − r(θ)) ln L (L) dx1 · · · dxn
−∞ −∞ −∞ ∂θ
 n


= Eθ (Tn − r(θ)) ln fX (Xi , θ)
∂θ i=1


la cual afirma que si X, Y son dos variables
Aplicando la desigualdad
de Schwarz
2
aleatorias, [E[XY ]] ≤ E[X 2 ] Y 2 por lo tanto
+   n  2
,
,
 
Bθ (Tn ) + r (θ) = - Eθ (Tn − r(θ))

ln fX (Xi , θ)
∂θ i=1
 
≤ Eθ [(Tn − r(θ))2 ] nI(θ)


entonces [Bθ (Tn ) + r (θ)]2 ≤ Eθ (Tn − r(θ))2 [nI(θ)], con lo cual se permite
establecer la cota:

[B  (Tn ) + r (θ)]2
Eθ (Tn − r(θ))2 ≥ θ
nI(θ)

Demostración (Teorema 2.2.13). Suponiendo que exista otro estimador


insesgado para la imagen de θ, que sea función de Tn , especı́ficamente
Un = h(Tn ), entonces Eθ [Un ] = r(θ). Bajo la hipótesis del teorema,
Eθ [Tn ] = r(θ), por lo tanto Eθ [Tn ] − Eθ [Un ] = 0 lo cual equivale a afirmar
que

Eθ [Tn − h(Tn )] = 0

pero como Tn es una estadı́stica completa, Pθ [(Tn − h(Tn )) = 0] = 1. Como


consecuencia, la función h obligatoriamente es la función idéntica, es decir Tn
es único.

2.4 Ejercicios del capı́tulo


1. Al considerar el modelo Beta como modelo para representar el compor-
tamiento probabilı́stico de una población, es preciso saber como se deben
estimar las dos constantes que intervienen en el modelo. Teniendo presente
que la función de densidad de una variable aleatoria X con distribución
Beta es
1
fX (x, θ) = xθ1 −1 (1 − x)θ2 −1 I(0,1) (x)
β(θ1 , θ2 )
2.4. EJERCICIOS DEL CAPÍTULO 105

Los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0.
¿Cuál es el MLE para θ?. ¿Cuál es el estimador por el método de los
momentos para θ?.
Dado el caso en el cual se asuma conocido o fijo el valor de θ1 , ¿cuál es el
MLE para θ2 ?, ¿cuál es el estimador por el método de los momentos para
θ2 ?, ¿es pertinente pensar en estimador por analogı́a para θ2 ?.
Igualmente, dado el caso en el cual se asuma conocido o fijo el valor de
θ2 , ¿cuál es el MLE para θ1 ?, ¿cuál es el estimador por el método de los
momentos para θ1 ?, ¿es factible determinar un estimador por analogı́a
para θ1 ?.
2. El modelo de Pareto es otro de los modelos frecuentemente utilizados.
Recordando que la función de densidad de una variable aleatoria X, con
distribución de Pareto es
θ2 θ1θ2
fX (x, θ) = I (x)
xθ2 +1 (θ1 ,∞)
Los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0.
¿Cuál es el MLE para θ?, ¿cuál es el estimador por el método de los
momentos para θ?, ¿es procedente pensar en un estimador por analogı́a
para θ?.
Asumiendo conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?, ¿cuál
es el estimador por el método de los momentos para θ2 ?, ¿es procedente
la construcción de un estimador por analogı́a para θ2 ?.
De la misma manera, asumiendo conocido o fijo el valor de θ2 , ¿cuál es el
MLE para θ1 ?, ¿cuál es el estimador por el método de los momentos para
θ1 ?, ¿es factible determinar un estimador por analogı́a para θ1 ?.
3. El modelo Zeta, utilizado particularmente en Lingüı́stica, está construido
con base en la función Zeta de Riemann, función definida como
∞
1
ζ(s) = s
, con s > 1
j=1
j

Una varible aleatoria X se dice que tiene distribución Zeta con parámetro
θ, θ > 0, o que tiene distribución de Zipf (en honor a George Zipf), si su
función de densidad es
1
fX (x, θ) = θ I{1,2,... } (x)
x ζ(θ)


en cuyo caso E X k = ζ(θ−k)
ζ(θ) , con θ > k + 1, k = 1, 2, ... Particularmente

ζ(θ − 1)
E[X] = si θ > 2
ζ(θ)

 2
ζ(θ − 2) ζ(θ − 1)
V [X] = − si θ > 3
ζ(θ) ζ(θ)
106 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

Explore la forma de estimar puntualmente el parámetro θ.


4. El modelo de Poisson, modelo muy conocido por sus múltiples aplicaciones
incluye una constante θ que corresponde tanto al centro de gravedad de
la función de densidad de una variable aleatoria regido por este modelo
como la cuantificación de la dispersión de la misma. Dado que la función
de densidad de una variable aleatoria X, con distribución de Poisson es
θx −θ
fX (x, θ) = e I{0,1,2,... } (x)
x!
siendo θ > 0, ¿cuál es el MLE para θ?, ¿cuál es el estimador por el método
de los momentos para θ?, ¿cuál es el estimador por analogı́a para θ?.
5. El modelo Gaussiano representa una gama amplia de situaciones y es el
modelo capital en Estadı́stica. Es necesario diferenciar las formas como se
deben estimar las dos constantes que participan en el modelo. Señalando
que la función de densidad de una variable aleatoria X, con distribución
Gaussiana es
1 (x−θ1 )2
fX (x, θ) = √ e− 2θ2
2πθ2
los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 ∈ R, θ2 > 0.
¿Cuál es el MLE para θ?, ¿cuál es el estimador por el método de los
momentos para θ?.
Para el caso particular en el cual se asuma conocido o fijo el valor de
θ1 , ¿cuál es el MLE para θ2 ?, ¿cuál es el estimador por el método de los
momentos para θ2 ?, ¿cuál es el estimador por analogı́a para θ2 ?.
Del mismo modo, dado el caso en el cual se asuma conocido o fijo el valor
de θ2 , ¿cuál es el MLE para θ1 ?, ¿cuál es el estimador por el método de
los momentos para θ1 ?, ¿cuál es el estimador por analogı́a para θ1 ?.
6. El modelo Gama realmente es una familia de modelos. Las dos con-
stantes que intervienen en la naturaleza del modelo, usualmente llamadas
parámetro de forma y parámetro de escala, se pueden estimar de varias
formas. Recordando que la función de densidad de una variable aleatoria
X, con distribución Gama es

θ2θ1 θ1 −1 −θ2 x
fX (x, θ) = x e I(0,∞) (x)
Γ(θ1 )

los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0.
¿Cuál es el MLE para θ?, ¿cuál es el estimador por el método de los
momentos para θ?.
Cuando se asume conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?,
¿cuál es el estimador por el método de los momentos para θ2 ?, ¿cuál es el
estimador por analogı́a para θ2 ?.
Similarmente cuando se asume conocido o fijo el valor de θ2 , ¿cuál es el
2.4. EJERCICIOS DEL CAPÍTULO 107

MLE para θ1 ?, ¿cuál es el estimador por el método de los momentos para


θ1 ?, ¿cuál es el estimador por analogı́a para θ1 ?.

7. Una variable aleatoria X, con distribución de Gumbel tiene como función


de distribución a
  
x − θ1
FX (x, θ) = exp − exp
θ2

los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 ∈ R, θ2 > 0.


Explore la forma de estimar puntualmente el parámetro θ, teniendo en
π2 θ2
cuenta que E[X] = θ1 + γθ2 , siendo γ ≈ 0.577216, y V (X) = 6 2 .

8. Una variable aleatoria X, con distribución de Laplace o con distribución


Exponencial doble, tiene como función de densidad a
1 − |x−θ1|
fX (x, θ) = e θ2
2θ2

los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 ∈ R, θ2 > 0.


Explore la forma de estimar puntualmente el parámetro θ, teniendo en
cuenta que E[X] = θ1 y V [X] = 2θ22 .
n 
 2
9. Determine la eficiencia relativa asintótica de 1
n Xi − X n frente a
i=1
Sn2 , para estimar σ 2 cuando se ha asumido un modelo Normal con valor
esperado μ y varianza σ 2 .

10. De los dos estimadores para σ 2 del ejercicio anterior, ¿cuál tiene mayor
error cuadrático medio?.

11. Igualmente, de los dos estimadores para σ 2 del ejercicio anterior, ¿cuál
tiene menor varianza?.

12. Un tramposo juega con una moneda de dos sellos, pero algunas veces para
no despertar sospechas, utiliza una moneda equitativa. El objeto de este
ejercicio es estimar cuál moneda está utilizando en un momento dado,
a partir de los resultados de n lanzamientos de una misma moneda,6 es
7
decir, estimar el parámetro θ, cuyo espacio es el conjunto Θ = 12 , 1 .
Compruebe que el MLE para θ es
 n   n 
1  
Tn = I{0,1,... ,n−1} Xi + I{n} Xi
2 i=1 i=1

13. ¿El estimador Tn del ejercicio anterior es un estimador insesgado, o es un


estimador asintóticamente insesgado para θ?.

14. Determine el error cuadrático medio del estimador Tn del ejercicio anterior.
108 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

15. Siendo las variables aleatorias X1 , X2 , . . . , Xn , una muestra aleatoria de


una población con distribución Uniforme en el intervalo (0, θ), determine
la varianza del estimador por el método de los momentos para θ, basado
en la muestra aleatoria, y examine si es un estimador insesgado para θ.
16. (Este ejercicio y los cinco siguientes hacen referencia al ejercicio 15).
Determine la varianza del estimador máximo-verosı́mil para θ, basado en
la muestra aleatoria, y concluya si es un estimador consistente para θ.
17. Construya un estimador insesgado para θ, que sea función del máximo de
la muestra, y determine su varianza. ¿Es este estimador consistente para
θ?.
18. Entre el estimador del ejercicio anterior y el estimador por el método de
los momentos, ¿cuál elige?
19. ¿Es posible construir un estimador insesgado para θ que sea función del
mı́nimo de la muestra?. Si es factible, identifı́quelo y determine su
varianza. ¿Es este un estimador consistente para θ?.
20. Considere los estimadores para θ de la forma Tn = h(n)Xn,n , siendo h(n)
una función exclusiva del tamaño de la muestra. Determine el estimador
de esta clase que tenga el menor error cuadrático medio.
21. En sı́ntesis, ¿cuál estimador elige como el más apto estimador para θ?.
22. Siendo las variables aleatorias X1 , X2 , . . . , Xn , una muestra aleatoria de
una población con distribución de Laplace con θ2 = 1, ¿existe una es-
tadı́stica suficiente para θ1 ?.
23. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función
de densidad
θ
fX (x, θ) = I[θ,∞) (x), θ>0
x2
determine el MLE de θ. Compruebe que este estimador es una estadı́stica
suficiente para θ.
24. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con dis-
tribución de Poisson con parámetro λ y θ = P [Xi = 0] = e−λ , determine
el MLE de θ, mediante dos procedimientos: directamente y usando la
propiedad de invarianza de los estimadores máximo-verosı́miles.
25. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una población con distribución de Bernoulli de parámetro θ, deter-
mine el MLE para la varianza poblacional.
26. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una población con distribución Gaussiana de valor esperado θ1 y
varianza θ2 , determine el MLE para θ12 + θ2 .
2.4. EJERCICIOS DEL CAPÍTULO 109

27. Determine la cota de Cramer-Rao para la varianza de los estimadores


insesgados para θ, basados en una muestra aleatoria de tamaño n de una
población con distribución de Bernoulli de parámetro θ.

28. Teniendo en cuenta el ejercicio anterior, ¿existe un UMVUE para θ?.

29. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-


ria de una población con distribución Binomial de valor esperado mθ y
varianza mθ(1 − θ), con m conocido, θ ∈ (0, 1). Obtenga el MLE, el esti-
mador por el método de los momentos y el estimador por analogı́a para θ.
¿Existe una estadı́stica suficiente?. Si es factible, determine el UMVUE
para θ.

30. Determine la cota de Cramer-Rao para la varianza de los estimadores


insesgados para θ, basados en una muestra aleatoria de tamaño n de una
población con distribución de Poisson de parámetro θ.

31. Teniendo en cuenta el ejercicio anterior, ¿existe un UMVUE para θ?.

32. Si se asume el modelo Gaussiano, ¿X n es un UMVUE para el promedio


poblacional?. ¿La varianza de Sn2 es igual a la correspondiente cota de
Cramer-Rao para los estimadores insesgados para la varianza poblacional?.

33. Si se adopta el modelo Gaussiano, y se asume que el promedio poblacional


es conocido, ¿existe un UMVUE para la varianza poblacional?. ¿Qué
ocurrirı́a si no se asume que el promedio poblacional es conocido?.

34. Determine la cota de Cramer-Rao para la varianza de los estimadores


insesgados para el parámetro de escala, basados en una muestra aleato-
ria de tamaño n de una población con distribución Gama. ¿Existe un
UMVUE para el parámetro de escala?.

35. Teniendo en cuenta una muestra aleatoria de tamaño n de una
 población
2

Uniforme en el intervalo (0, θ), calcule Eθ ln fX (x, θ) y compárelo
∂θ
con la varianza del estimador insesgado para θ basado en el máximo de la
muestra. ¿Se presenta alguna contradicción?.

36. Sea X1 , X2 , . . . , Xn una sucesión de variables aleatorias incorrelacionadas


tales que σi2 = V [Xi ] y E[Xi ] = μ, i = 1, 2, . . . , n. Considere el es-
 n
timador Tn = βi Xi , siendo β1 , β2 , . . . , βn , constantes determinadas.
i=1
¿Cuál condición deben cumplir estas constantes para que el estimador
Tn sea insesgado para μ?. Determine la varianza de Tn en términos de
β1 , β2 , . . . , βn y σ1 , σ2 , . . . , σn . Bajo la restricción del insesgamiento de
Tn use multiplicadores de Lagrange para comprobar que la varianza de Tn
110 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

es mı́nima, cuando
1
jσ2
βj = 
n para j = 1, 2, . . . , n
1
σj2
i=1

Si σ1 , σ2 , . . . , σn se asumen conocidas, una estadı́stica como lo sugiere este


ejercicio se denomina BLUE(best linear unbiased estimator) para μ.

37. Teniendo en cuenta lo expuesto en el ejercicio anterior, si las variables


aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una
población con valor esperado μ y varianza σ 2 , ¿X n es BLUE para μ?,
¿se requiere conocer el valor de σ?.

38. Siendo X1 , X2 , . . . , Xn , una muestra aleatoria de una población con dis-


n
tribución de Poisson con parámetro θ, muestre que la estadı́stica Xi es
i=1
una estadı́stica suficiente para θ, ¿existe una estadı́stica suficientte mini-
mal para θ?.

39. Si X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-


ción Gama con parámetro θ = (θ1 , θ2 ) y siendo Gn la media geométrica
muestral, ¿la estadı́stica Tn = (X n , Gn ), es una estadı́stica suficiente para
θ?. Si se asume conocido θ1 , ¿existe un UMVUE para θ2 ?.

40. Siendo X1 , X2 , . . . , Xn , una muestra aleatoria de una población con dis-


tribución Beta con parámetro θ = (θ1 , θ2 ), ¿existe una estadı́stica sufi-
ciente minimal para θ?.

41. Siendo X1 , X2 , . . . , Xn , una muestra aleatoria de una población con dis-


tribución Uniforme en el intervalo (0, θ), ¿existe una estadı́stica suficiente
para θ?.

42. Siendo X1 , X2 , . . . , Xn , una muestra aleatoria de una población con dis-


tribución Uniforme en el intervalo (θ, θ + 1), θ > 0, compruebe que la
estadı́stica (X1,n , Xn,n ) es una estadı́stica suficiente minimal para θ.

43. Muestre que si Tn es una estadı́stica completa para θ, y si Tn es otra


estadı́stica, ella es completa si Tn y Tn son estadı́sticas equivalentes.

44. La estadı́stica
⎡  n 2 ⎤
1  
n
1
Xi − ⎣ Xi ⎦
n − 1 i=1 n(n − 1) i=1

basada en una muestra aleatoria X1 , X2 , . . . , Xn de una población con


distribución de Bernoulli de parámetro θ, ¿es UMVUE para θ(1 − θ)?.
2.4. EJERCICIOS DEL CAPÍTULO 111

45. Y = 100X es el contenido porcentual de calcio en cierto compuesto, que se


puede modelar como una variable aleatoria tal que la función de densidad
de la variable aleatoria X es
fX (x, θ) = θxθ−1 I(0,1) (x), θ>0
Con base en n determinaciones independientes Y1 , Y2 , . . . , Yn , las cuales
se pueden tratar como una muestra aleatoria, encuentre un MLE y un
UMVUE para el contenido medio de calcio. ¿Existe alguna función de θ
tal que haya un estimador insesgado para la imagen de θ, cuya varianza
coincida con su correspondiente cota de Cramer-Rao?.
46. El tiempo en la atención a un cliente en un banco se puede modelar como
una variable aleatoria con distribución Exponencial de valor esperado θ1 .
Con base en una muestra de n clientes atendidos, se desea estimar el
tiempo mediano de atención. Obtenga un MLE y un UMVUE para este
tiempo mediano.
47. El número de animales de cierta especie que se pueden encontrar dentro
de un cuadrante (cuadrado ubicado cartográficamente en el área de in-
vestigación), se modela corrientemente como una vairable aleatoria con
distribución de Poisson de parámetro θ. Existe un interés paricular den-
tro de la descripción de la distribución espacial, por la probabilidad de
encontrar a lo sumo un ejemplar de la especie, es decir, por la función
r(θ) = (1 + θ)e−θ . Construya un MLE y un UMVUE para la imágen de θ
bajo la función r, basado en una muestra aleatoria X1 , X2 , . . . , Xn , siendo
Xi la variable aleatoria que representa al número de animales de la especie
en el i-ésimo cuadrante elegido, i = 1, 2, . . . , n.
48. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con dis-
tribución Gaussiana de valor esperado θ y varianza θ, ¿cuál estimador
considera que debe adoptarse en términos de insesgamiento, completez y
suficiencia?.
49. Si en el ejercicio anterior se establece que el valor esperado es θ y la
varianza θ2 , bajo los mismos términos, ¿de cuál o cuales estimadores se
puede disponer?.
50. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-
ria de una población con distribución Binomial de valor esperado mθ y
varianza mθ(1 − θ), con m conocido, θ ∈ (0, 1), ¿es factible determinar un
UMVUE para θm ?.
51. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-
ción Geométrica con parámetro θ, es decir de una población con función
de densidad
fX (x, θ) = (1 − θ)x−1 θI{1,2,... } , θ ∈ (0, 1)
1−θ
Establezca un UMVUE para θ y un UMVUE para θ .
112 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS

52. Para el análisis de la fatiga de un material, se planea un ensayo con una


muestra de n probetas, el cual culmina cuando k de las n probetas hayan
fallado. Determine el MLE para θ2 suponiendo conocido θ1 si el modelo
adoptado para la descripción del tiempo de falla de la probeta es el modelo
de Weibull, cuya función de densidad es
 
θ
θ1 θ1 −1 x 1
fX (x, θ) = θ1 x exp − I(0,∞) (x), θ = (θ1 , θ2 )
θ2 θ2

53. Compruebe que la familia de densidades Gama es conjugada para la fun-


ción de densidad de un modelo de Poisson.

54. Teniendo en cuenta el ejercicio anterior determine el estimador Bayesiano


para el parámetro θ de una distribución de Poisson.

55. ¿La familia de densidades Gama es cerrada bajo muestreo para la función
de densidad de un modelo Exponencial?.

56. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-


ción Uniforme en el intervalo (−θ, θ). ¿Son las estadı́sticas X1,n y Xn,n
conjuntamente suficientes para θ?. ¿Es Tn = max(−X1,n , Xn,n ) un MLE
para θ?. ¿La familia a la cual pertenece la función de densidad de la
población es una familia completa?.

57. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-


ción Exponencial desplazada con parámetro θ = (θ1 , θ2 ). Determine una
colección minimal de estadı́sticas suficientes para θ.

58. X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de


densidad
1 − xθ
fX (x, θ) = e I(0,∞) (x)
θ
Muestre que

nX1,n 
n

n y Xi
Xi i=1
i=1

son dos variables estadı́sticamente independientes.


59. Se repite un ensayo de Bernoulli, con probabilidad de éxito θ, hasta que
ocurren exactamente k éxitos. Siendo X la variable aleatoria que contabi-
liza el número de ensayos necesarios para obtener los k éxitos. Es decir
que
 
x−1 k
fX (x, θ) = θ (1 − θ)x−k I{k,k+1,... } (x)
k−1
2.4. EJERCICIOS DEL CAPÍTULO 113

¿La familia de densidades a la cual pertenece la función de densidad de la


k−1
variable aleatoria X, es una familia completa?. ¿Es x−1 una estimación
insesgada de θ?.
60. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-
ción Uniforme en el intervalo (θ1 −θ2 , θ1 +θ2 ) con θ1 ∈ R y θ2 > 0. Muestre
que las estadı́sticas X1,n , Xn,n son estadı́sticas conjuntamente suficientes
para θ = (θ1 , θ2 ).

61. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función


de densidad

fX (x, θ) = θ2 xe−θx I(0,∞) (x), θ>0


n
¿Es Xi una estadı́stica suficiente y completa para θ?. Determine un
i=1

n
estimador insesgado para θ que sea una función de Xi tal que él tenga
i=1
la varianza mı́nima.
62. Compruebe que el MLE para θ es una función de la media geométrica
muestral, y que ésta es una estadistica suficiente y completa para el
parámetro θ, basados en una muestra aleatoria X1 , X2 , . . . , Xn , de una
población con función de densidad

fX (x, θ) = θxθ−1 I(0,1) (x), θ>0

63. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-


ción Uniforme discreta con parámetro θ, es decir que su función de densi-
dad es
1
fX (x, θ) = I{1,2,... ,θ} (x), θ>0
θ
Muestre que el máximo de la muestra es una estadı́stica suficiente y com-
pleta.
64. Con base en el ejercicio anterior determine un estimador insesgado de
varianza mı́nima para θ.
65. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función
de densidad

fX (x, θ) = e−(x−θ)I(θ,∞) (x), θ∈R

Determine una estadı́stica suficiente y completa y un UMVUE para θ.


114 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
Capı́tulo 3

ESTIMACIÓN POR
INTERVALO DE
PARÁMETROS

Una estadı́stica facultada para estimar un parámetro particular, producirá es-


timaciones alrededor del valor especı́fico del parámetro, porque cumplió con el
requisito de insesgamiento y esas estimaciones serán de la mayor precisión de-
bido a que la estadı́stica elegida posee la menor varianza. Y seguramente tal
estimador tiene en su haber otras cualidades primordiales que lo hacen apto
para su labor, y de esa manera está certificada su competencia.
Esa certificación brinda el suficiente respaldo para que las estimaciones gocen
de toda la confianza, y ası́ poder sustituir esas constantes fundamentales del
modelo por estimaciones válidas y sustentadas, de tal manera que sean la licencia
para poner en marcha el modelo concebido y ası́ responder de manera técnica a
las preguntas pertinentes del fenómeno modelado.
Pero no siempre el fin de la inferencia es estimar un parámetro de la forma
como hasta este punto se ha considerado; en ciertas aplicaciones el propósito
de la inferencia está en el sentido de llevar a cabo un alvalúo de ese parámetro
por medio de un intervalo, emitiendo ya no un único valor sino un rango de
valores como estimación del parámetro. Algunas investigaciones encuentran en
este procedimiento una mejor forma de estimación de parámetros, más útil y
provechosa, frente a la declaración de un único valor; por ello corrientemente
suelen dar a conocer, el punto medio de un intervalo y sus extremos, para
declarar además de la estimación de un parámetro, una idea de variabilidad
asociada a tal estimación, máxime cuando el punto medio corresponde a una
estimación puntual de la mejor calidad.
Este proceder especial de estimación conlleva elementos conceptuales pro-
pios que el presente capı́tulo menciona en su primera parte; también cuenta
con varios métodos para la construcción de esos intervalos de estimación, llama-
dos intervalos confidenciales o intervalos de confianza, de los cuales este texto

115
116 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

sólamente tratará el método de la variable pivote. Para comenzar, se da paso


a esta parte inicial, consistente en la primera fase dentro de la construcción
conceptual de la estimación por intervalo de parámetros.

3.1 Conceptos preliminares


Definición 3.1.1. Un intervalo aleatorio es un intervalo tal que al menos
uno de sus extremos es una variable aleatoria.
Definición 3.1.2. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
(1)
con función de densidad fX (x, θ), θ ∈ Θ y Tn =  t1 (X1 , X2, . . . , Xn ),
(2) (1) (2)
Tn = t2 (X1 , X2 , . . . , Xn ) dos estadı́sticas tales que Pθ Tn < Tn = 1, r(θ)
una función del parámetro, función
 cuyo  recorrido es un conjunto de números
(1) (2)
reales. El intervalo aleatorio Tn , Tn se denomina intervalo confidencial
para la imagen de θ bajo r del 100(1 − α)% de confianza si
 
Pθ Tn(1) < r(θ) < Tn(2) = 1 − α

probabilidad que no depende de θ.


(1) (2)
Definición 3.1.3. En la definición 3.1.2, Tn y Tn reciben el nombre de
lı́mite confidencial inferior y lı́mite confidencial superior respectiva-
mente y el valor 1 − α nivel confidencial o confianza.
Definición 3.1.4. Bajo las consideraciones de la definición  3.1.2 el intervalo
(1) (2)
(t1 , t2 ) como intervalo particular del intervalo confidencial Tn , Tn , se de-
nomina estimación por intervalo del 100(1 − α)% de confianza para la
imagen de θ bajo r.
Definición 3.1.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x, θ), r(θ) una función del parámetro, cuyo
(1)
recorrido es un conjunto de números reales, con δ < r(θ) < βy Tn una
(1) (1)
estadı́stica, Tn = t1 (X1 , X2 , . . . , Xn ). El intervalo aleatorio Tn , β es
un intervalo confidencial unilateral  del 100(1 − α)% de confianza para la
(1)
imagen de θ bajo r si Pθ Tn < r(θ) = 1 − α, probabilidad que no depende de
θ.
(2)
También si Tn = t2 (X1 , X2 , . . . , Xn ) es una estadı́stica, el intervalo aleato-
(2)
rio (δ, Tn ) es un intervalo confidencial unilateral del 100(1 − α)% de con-
(2)
fianza para la imagen de θ bajo r, si Pθ [r(θ) < Tn ] = 1 − α, probabilidad que
no depende de θ.
(1) (2)
Definición 3.1.6. Tn y Tn en la definción 3.1.5 reciben respectivamente el
nombre de lı́mite confidencial inferior unilateral para r(θ) y lı́mite con-
fidencial superior unilateral para r(θ).
3.2. EL MÉTODO DE LA VARIABLE PIVOTE 117

Teorema 3.1.1. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población


(i)
con función de densidad
 fX (x,
 θ), y Tn = ti (X1 , X2 , . . . , Xn ), i = 1, 2, es-
(1) (2)
tadı́sticas tales que Tn , Tn es un intervalo confidencial para θ. Si r(θ) es
una función
  estrictamente
  monótona con dominio Θ y recorrido un subconjunto
(1) (2)
de R, r Tn , r Tn es un intervalo confidencial para la imagen de θ bajo
    
(2) (1)
r cuando ésta es estrictamente creciente y r Tn , r Tn es un intervalo
confidencial para la imagen de θ bajo r cuando la función r es estrictamente
decreciente.
El concepto de intervalo confidencial es un caso particular de un concepto
más general: la región confidencial.
Definición 3.1.7. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población
con función de densidad fX (x, θ). Un subconjunto A(X1 , X2 , . . . , Xn ) del espa-
cio de las observaciones X, se denomina región confidencial del 100(1 − α)%
de confianza para el parámetro θ, si Pθ [θ ∈ A(X1 , X2 , . . . , Xn )] = 1 − α, pro-
babilidad que no depende de θ.

3.2 El método de la variable pivote


Como se mencionó en la introducción de este capı́tulo, la estimación por inter-
valo posee varios métodos para la construcción de intervalos confidenciales, sin
embargo el de mayor tradición y renombre es el método de la variable pivote,
método que se describe en esta sección.
Definición 3.2.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x, θ). Sea QX = q(θ; X1 , X2 , . . . , Xn ) una función
de las variables que conforman la muestra aleatoria y del parámetro θ. QX se
denomina variable aleatoria pivote (variable pivote) para el parámetro θ
si la distribución de QX no depende de θ.
Ejemplo 3.2.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población
Normal de valor esperado θ y varianza σ 2 conocida, entonces

n(X n − θ)
σ
es una variable pivote para θ porque además de depender de X1 , X2 , . . . , Xn , a
través de X n ,

n(X n − θ)
∼ N (0, 1)
σ
Ejemplo 3.2.2. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población
Normal de valor esperado θ y varianza σ 2 , X n y Sn2 , el promedio y varianza
muestrales, entonces

n(X n − θ)
QX =
Sn
118 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

es una variable pivote para θ.


En efecto. QX es una función de X1 , X2 , . . . , Xn a través de X n y Sn . Además,

n(X n − θ)
1. ∼ N (0, 1)
σ

n
(Xi − X n )2
(n − 1)Sn2 i=1
2. = ∼ χ2 (n − 1)
σ2 σ2
3. Debido a que X n y Sn2 son estadı́sticamente independientes,

n(X n − θ) (n − 1)Sn2
y
σ σ2
también lo son, entonces
√ √
n(X n −θ)
n(X n − θ)
QX = . σ 2 = ∼ t(n − 1)
(n−1)Sn Sn
(n−1)σ2

El método de la variable pivote es el método más utilizado en la construcción


de intervalos confidenciales. Consiste en partir del paso inicial, una vez definido
el coeficiente 1 − α,

Pθ [a < QX < b] = 1 − α

continuar con pasos intermedios que consisten en considerar eventos equivalentes


hasta determinar el evento tal que

Pθ [T1 < r(θ) < T2 ] = 1 − α


(1) (2)
y como consecuencia el intervalo aleatorio (Tn , Tn ) será un intervalo confi-
dencial del 100(1 − α)% para r(θ).

Ejemplo 3.2.3. Determinar un intervalo confidencial para el parámetro θ basa-


do en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de
densidad

fX (x, θ) = θe−θx I(0,∞) (x)

La variable aleatoria Yi = 2θXi tiene distribución exponencial con parámetro


1
2 , hecho que se reconoce de la siguiente manera:
 y
FYi (y) = P [2θXi ≤ y] = P Xi ≤
y 2θ
= FXi i = 1, 2, . . . , n

3.2. EL MÉTODO DE LA VARIABLE PIVOTE 119

por lo tanto,
 y

FYi (y) = θe−θxi dxi , luego
0
1 − θy
fYi (y) = θ e 2θ

1 1
= e− 2 y I(0,∞) (y)
2
Con base en este resultado se establece a

n 
n
QX = Yi = 2θ Xi
i=1 i=1

como una variable aleatoria pivote, variable que tiene distribución Ji-cuadrado
de parámetro 2n, debido a lo siguiente  n
1 1
para t < 12 , MYi (t) = 1 2−t , y por lo tanto, MQX (t) = 2
por ser
(2 ) ( 12 −t)
Y1 , Y2 , . . . , Yn un conjunto de variables aleatorias independientes; esta función
generatriz de momentos es propia de una variable aleatoria con distribución
Ji-cuadrado con 2n grados de libertad.
Como la distribución de QX no depende de θ, ésta constituye una auténtica
variable pivote, y con base en lo anterior, como punto de partida en la construc-
ción del intervalo confidencial, se considera el evento aleatorio {a < QX < b}.
En consecuencia,
⎡ ⎤

n
⎢ a b ⎥
Pθ a < 2θ Xi < b = Pθ ⎢⎣  n <θ<  n
⎥=1−α

i=1 2 Xi 2 Xi
i=1 i=1

Eligiendo los valores a, b, como: a = χ2α , b = χ21− α , el intervalo aleatorio


2 2

⎛ ⎞
⎜ χ2α2 χ21− α ⎟
⎜ , 2 ⎟
⎝  n n ⎠
2 Xi 2 Xi
i=1 i=1

es un intervalo confidencial del 100(1 − α)% para el parámetro θ, porque además


de ser
⎡ ⎤
⎢ χ2α2 χ21− α ⎥
Pθ ⎢
⎣  n < n
2 ⎥=1

2 Xi 2 Xi
i=1 i=1

el valor de 1 − α no está supeditado a ningún valor de θ.


120 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

Sobra decir que la anterior elección de a y b es una escogencia particular, y


por supuesto puede adoptarse otra pareja de valores a, b. La pareja (a, b) puede
ser única cuando se le plantean requerimientos al intervalo, como por ejemplo
que su longitud sea mı́nima, en cuyo caso es menester llevar a cabo unos pasos
adicionales con el fin determinar el intervalo que satisfaga esa condición.
El método de la variable pivote tiene tres condiciones esenciales: la primera,
concerniente a la existencia misma de una variable pivote como tal, la segunda
(1) (2)
a la factibilidad de deducir las estadı́sticas Tn y Tn a partir de la variable
pivote, estadı́sticas que definen en últimas el intervalo confidencial, y la tercera
en lograr encontrar la variable pivote con una distribución, en lo posible cono-
cida, que permita determinar sus percentiles. El siguiente ejemplo trata del
establecimiento de una variable pivote general, para aquellos casos en los cuales
la función de distribución tiene una expresión algebraica explı́cita.

Ejemplo 3.2.4 (Una variable pivote general). Partiendo del hecho del cual
si X es una variable aleatoria con función de distribución FX (x, θ) continua, en-
tonces la variable aleatoria Y = FX (X, θ) tiene distribución Uniforme en el
intervalo (0, 1), es posible construir una variable pivote de la manera siguiente.
Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con función
de distribución FX (x, θ) continua,

Ui = FX (Xi , θ) ∼ U (0, 1), i = 1, 2, . . . , n


Ri = − ln Ui ∼ Exp(1)

porque

FRi (r) = P [Ri ≤ r] = P [− ln Ui ≤ r] = P [ln Ui > −r]


= P [Ui > e−r ] = 1 − P [Ui ≤ e−r ] = 1 − FUi (e−r )
= 1 − e−r

luego Ri ∼ Exp(1). Definiendo


n 
n
QX = Ri = − ln FX (Xi , θ) ∼ Gama(n, 1)
i=1 i=1

porque
n

tQX
t Ri
MQX (t) = E e =E e i=1



= E etR1 etR2 . . . etRn




= E etR1 E etR2 . . . E etRn

dado que U1 , U2 , . . . , Un es una muestra aleatoria, R1 , R2 , . . . , Rn son variables


3.2. EL MÉTODO DE LA VARIABLE PIVOTE 121

aleatorias independientes e idénticamente distribuidas, luego


n n
1
MQX (t) = MRi (t) =
i=1 i=1
1−t
 n
1
= , t<1
1−t
entonces QX ∼ Gama(n, 1). Por lo anterior la variable

n 
n
QX = Ri = − ln FX (Xi , θ) ∼ Gama(n, 1)
i=1 i=1

variable que puede utilizarse como una variable pivote para θ, siempre y cuando,
la función de distribución de la población tenga una expresión que permita
aplicar el método.
La deducción de una variable aleatoria pivote general, se basó en el hecho de
que FX (Xi , θ) para i = 1, 2, . . . , n, tiene distribución Uniforme en el intervalo
(0, 1). Para algunos casos particulares, por razones expeditivas, la variable
aleatoria pivote se construye a partir de que igualmente 1−FX (Xi , θ) ∼ U (0, 1).
Una sutil modificación a la variable aleatoria pivote general, regido por el
modelo Gama, permite la construcción de otra variable aleatoria pivote, ésta
bajo la distribución Ji-cuadrado, ası́

n
Q∗X = −2 ln FX (Xi , θ) ∼ χ2 (2n)
i=1

Porque, de la misma manera a lo expresado en el ejemplo 3.2.4, como FX (Xi , θ)



tiene distribución Uniforme en el intervalo (0, 1), −2 ln FX (Xi , θ) ∼ Exp 12 ,

n 
con lo cual la variable aleatoria −2 ln FX (Xi , θ) ∼ Gama n, 12 , es decir,
i=1


n
Q∗X = −2 ln FX (Xi , θ) ∼ χ2 (2n)
i=1

Cualquiera de las variables aleatorias pivotes generales puede expresarse de for-


ma alternativa, forma conveniente para algunos casos individuales, gracias a la
propiedad fundamental de la función logaritmo, ası́
n n
QX = − ln FX (Xi , θ) o Q∗X = −2 ln FX (Xi , θ)
i=1 i=1

Ejemplo 3.2.5. El desarrollo del ejemplo 3.2.3, produjo un intervalo confiden-


cial para el parámetro θ, basado en una muestra aleatoria X1 , X2 , . . . , Xn , de
una población con función de densidad

fX (x, θ) = θe−θx I(0,∞) (x)


122 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS


Como FX (x, θ) = 1 − e−θx I(0,∞) (x), (1 − FX(x, θ)) I(0,∞) (x) = e−θx I(0,∞) (x),
con lo cual e−θXi ∼ U (0, 1) e igualmente − ln e−θXi = θXi tiene distribución
Exponencial con parámetro igual a uno, hecho que permite justificar el motivo
para la adopción de la variable pivote:

n
QX = 2θ Xi ∼ χ2 (2n)
i=1

A partir de esta variable es fácil determinar un intervalo confidencial para θ.


Para coadyuvar en el cumplimiento de la primera condición del método, la
determinación de una variable pivote, la función que desempeña el parámetro
en consideración es algunas veces una vı́a para identificar dicha variable. Tales
son los casos cuando el parámetro es identificado como parámetro de localización
o cuando el parámetro es denominado como parámetro de escala.
Definición 3.2.2. Sea {fX (x, θ)|θ ∈ Θ ⊆ Rk } una familia de densidades. El
componente θj de θ se denomina componente de localización, si y sólo si la
distribución de X − θj o X + θj , según sea el caso, no depende de θj . Cuando
Θ ⊆ R el parámetro θ se denomina parámetro de localización si y sólo si la
distribución de X − θ o X + θ no depende de θ.
Ejemplo 3.2.6. Si
1 (x−θ )2
− 2θ 1
fX (x, θ) = √ √ e 2 , θ = (θ1 , θ2 )
2π θ2
entonces θ1 es el componente de localización. En efecto, (X − θ1 ) ∼ N (0, θ2 ),
distribución que no depende del valor de θ1 .
Definición 3.2.3. Sea {fX (x, θ)|θ ∈ Θ ⊆ Rk } una familia de densidades. El
componente  θj de θ se denomina componente de escala, si y sólo si la dis-
X
tribución de o (Xθj ), según sea el caso, no depende de θj . Cuando Θ ⊆ R
θj
el parámetro
  θ se denomina parámetro de escala si y sólo si la distribución
X
de o de (Xθ) no depende de θ.
θ
Ejemplo 3.2.7. Si
fX (x, θ) = θe−θx I(0,∞) (x)
el parámetro θ es un parámetro de escala dado que la distribución de Z = θX,
no depende de θ, porque
FZ (z) = P [Z ≤ z] = P [θX ≤ z]
 z z 
=P X ≤ = FX
θ θ
= 1 − e−z
luego Z ∼ Exp(1), distribución que no depende del valor que asuma el parámetro
θ.
3.2. EL MÉTODO DE LA VARIABLE PIVOTE 123

El reconocer a un parámetro como un parámetro de escala o como un


parámetro de localización, es una vı́a para la identificación de una variable
pivote como se habı́a expresado anteriormente. Por consiguiente, si θ es un
parámetro de escala, según sea el caso, Xθi o θXi , es una variable aleatoria
n
Xi n
pivote, y lo es también θ o θ Xi dependiendo de la situación. De ma-
i=1 i=1

n n
nera similar (Xi − θ) o (Xi + θ), según el caso, es una variable pivote para
i=1 i=1
el parámetro de localización θ.

Teorema 3.2.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


(1) (2)
con función de densidad fX (x, θ), θ ∈ ΘRk , y las estadı́sticas Tn , Tn y Tn ,
estadı́sticas basadas en esta muestra aleatoria.

1. Si θ es un parámetro de localización y si Tn es MLE de θ, Tn − θ o Tn + θ


es una variable aleatoria pivote.

Tn
2. Si θ es un parámetro de escala y si Tn es MLE de θ, o θTn es una
θ
variable aleatoria pivote para θ.

(1)
3. Si θ1 es el componente de localización y Tn un MLE de θ1y además  si
(1)
(2) T n − θ 1
θ2 es el componente de escala y Tn un MLE de θ2 entonces (2)
Tn
es una variable aleatoria pivote para θ1 , si ésta no depende de los demás
componentes de θ, o si éstos son conocidos.

Teorema 3.2.2. Bajo un caso regular de estimación, si Tn = t(X1 , X2 , . . . , Xn )


es un estimador insesgado para la imagen de θ bajo una función r cuya
varianza coincide con la cota de Cramer-Rao, basado en una muestra aleatoria
X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ), entonces la
variable aleatoria

nI(θ)
(Tn − θ)
r (θ)

converge en distribución a una variable aleatoria con distribución Normal estándar.

Las dos secciones siguientes, dedicadas a los intervalos confidenciales bajo


Normalidad, son fundamentalmente una relación de ejemplos del uso del método
de la variable pivote, cuando se ha asumido el modelo Gaussiano como regente
del comportamiento probabilı́stico de la población.Estos intervalos son los que
comúnmente se describen en la mayorı́a de textos de Estadı́stica; su inclusión,
además de ser una serie de ejemplos en la construcción de intervalos confiden-
ciales, responde a que dichos intervalos son de uso corriente.
124 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

3.3 Estimación de promedios, bajo Normalidad


3.3.1 Intervalos confidenciales para el promedio de una
población
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución
Normal de valor esperado μ y varianza σ 2 . Se consideran dos casos, dependiendo
de los supuestos que se hagan sobre la varianza poblacional.
Caso 1
Un intervalo confidencial del 100(1 − α)% para μ, de longitud mı́nima, cuando
el valor de la varianza σ 2 es conocido, es
 
σ σ
X n − z1− α2 √ , X n + z1− α2 √
n n

La variable pivote mencionada en el ejemplo 3.2.1, es la variable pivote que


utiliza este primer caso,

n(X n − μ)
QX = ∼ N (0, 1)
σ

El punto de partida del método, como se ha indicado de manera general, es para


este caso
 √ 
n(X n − μ)
Pμ a < < b = (1 − α)
σ

que corresponde gráficamente al esquema que presenta la figura 3.1

fQX (q)

1−α

a b q

Figura 3.1: Esquema del punto de partida del método de la variable pivote para
el caso 1
3.3. ESTIMACIÓN DE PROMEDIOS, BAJO NORMALIDAD 125



1 − α = Pμ aσ < n(X n − μ) < bσ
 
aσ bσ
= Pμ √ < (X n − μ) < √
n n
 
aσ bσ
= Pμ −X n + √ < μ < −X n + √
n n
 
bσ aσ
= Pμ X n − √ < μ < X n − √
n n

Se ha determinado entonces un intervalo confidencial para μ,


 
bσ aσ
Xn − √ , Xn − √
n n

cuya longitud LI es factible hacerla mı́nima.


 
aσ bσ
LI = X n − √ − Xn − √
n n
σ
= √ (b − a)
n

Cualquier elección de la pareja (a, b) debe satisfacer para sus componentes la


relación fundamental:
 b
fQX (q)dq = 1 − α
a

o equivalentemente

FQX (b) − FQX (a) = 1 − α

Acatando esta relación entre a y b,


   
∂ σ ∂ ∂ σ ∂
LI = √ b− a = √ 1− a
∂b n ∂b ∂b n ∂b

y derivando la relación fundamental en términos de b se deduce que



fQX (b) − fQX (a) a=0
∂b
y por lo tanto

fQX (b) ∂
= a
fQX (a) ∂b

Sustituyendo esta última relación se tiene por consiguiente que


 
∂ σ fQX (b)
LI = √ 1−
∂b n fQX (a)
126 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

De esta manera

LI = 0 cuando fQX (b) = fQX (a)
∂b
o cuando a = b, pero esta última solución no es admisible porque no satisface la
relación fundamental entre a y b. Gráficamente la figura 3.1 muestra la elección
apropiada de a y b para conseguir el intervalo confidencial con la exigencia de
longitud mı́nima.

fQX (q)

1−α
α α
2 2
|

a 0 b q
(−z1− α2 ) (z1− α2 )

Figura 3.2: Elección de los valores a y b que minimizan la longitud del intervalo
confidencial correspondiente al caso 1

Por lo tanto, el intervalo confidencial del 100(1−α)% para μ de longitud mı́nima


bajo el supuesto de que la varianza σ 2 es conocida corresponde a
 
σ σ
X n − z1− α2 √ , X n + z1− α2 √
n n
Caso 2
Un intervalo confidencial del 100(1 − α)% para μ de longitud mı́nima, cuando
la varianza de la población es desconocida es
 
Sn Sn
X n − t1− 2 (n − 1)
α √ , X n + t1− 2 (n − 1)
α √
n n
Este intervalo atañe a situaciones más realistas, o por lo menos más corrientes
que a la considerada por el Caso 1. La variable aleatoria pivote para μ que
genera este intervalo confidencial es

n(X n − μ)
QX = ∼ t(n − 1)
Sn
tal como fue mencionada en el ejemplo 3.2.2. A partir de ella y siguiendo
prácticamente los mismos pasos y consideraciones del Caso 1, se puede deducir
3.3. ESTIMACIÓN DE PROMEDIOS, BAJO NORMALIDAD 127

el citado intervalo confidencial.


Un buen estimador de la probabilidad de éxito π en un modelo de Bernoulli,
también llamada proporción poblacional , es el promedio de la muestra que por
su singularidad se le denomina proporción muestral y es denotado como Pn .
Este estimador derivado con base en el método de máxima verosimilitud goza
de buenas propiedades que lo hacen óptimo. Con base en él es factible construir
un intervalo confidencial para la proporción poblacional utilizando muestras
grandes. El siguiente teorema apresta el fundamento de su construcción.

Teorema 3.3.1. Sea Tn un MLE insesgado para θ, cuya varianza coincide con
la cota de Cramer-Rao y que cumple conjuntamente las condiciones de regulari-
dad con el modelo probabilı́stico elegido, entonces para un tamaño de muestra su-
ficientemente grande, un intervalo confidencial de aproximadamente 100(1−α)%
de confianza para θ es
 
z1− α2 z1− α2
Tn −  , Tn + 
nI(Tn ) nI(Tn )

donde I(Tn ) es la información de Fisher evaluada en la estadı́stica Tn .

3.3.2 Estimación de la proporción poblacional


Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución
de Bernoulli de parámetro π, un intervalo confidencial del 100(1 − α)% para π
es
 8 8 
Pn (1 − Pn ) Pn (1 − Pn )
Pn − z1− α2 , Pn + z1− α2
n n

En efecto, teniendo en cuenta que


1
I(θ) =
θ(1 − θ)
1
I(Tn ) = I(Pn ) =
Pn (1 − Pn )

y utilizando el teorema 3.3.1, el intervalo confidencial para la proporción pobla-


cional es
⎛ ⎞
z1− α2 z1− α2
⎝Pn − . , Pn + . ⎠
1 1
n Pn (1−P n)
n Pn (1−Pn )

es decir
 8 8 
Pn (1 − Pn ) Pn (1 − Pn )
Pn − z1− α2 , Pn + z1− α2
n n
128 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

Como este intervalo requiere para su aplicación que el tamaño de la muestra sea
grande, una recomendación práctica para su utilización, según varios autores,
es confirmar que npn > 5 y n(1 − pn ) > 5.
Un intervalo confidencial también utilizado en laestimación de π, citado en
algunos textos, basado en la misma variable pivote nI(θ)(Pn − θ) es
⎛ 8 8 ⎞
2 z1− α 2 z1− α
z2 α Pn (1−Pn )
2
z1− α Pn (1−Pn )
⎜ Pn + 1− 2 + 4n2
2
Pn + 2 + 4n2
2

⎜ 2n
− z1− α2
n
, 2n
+ z1− α2
n

⎝ 2
z1− α
2
z1− α
2
z1− α
2
z1− α ⎠
1+ n2 1+ n
2
1+ n
2
1+ n
2

3.3.3 Intervalo confidencial para la diferencia de prome-


dios basado una muestra pareada
Cuando las variables aleatorias X, Y representan variables medidas en las mis-
mas unidades y que cuantifican el mismo aspecto de la unidad estadı́stica
sólo que en circunstancias distintas y cuando la variable aleatoria Xi − Yi ,
i = 1, 2, . . . , n, representa una variable que tenga sentido, la muestra aleato-
ria (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) se denomina muestra pareada.
Siendo la muestra pareada (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) una muestra aleato-
ria bivariada de una población con distribución Normal bivariada, cuya fun-
ción de densidad fX,Y (x, y) es
  2  2    
1 x − μ1 y − μ2 x − μ1 y − μ2
K exp − − − 2ρ
2(1 − ρ) σ1 σ2 σ1 σ2

siendo la constante K = 1/(2πσ1 σ2 1 − ρ), el intervalo confidencial del
100(1 − α)% de confianza para la diferencia de promedios

μd = μ1 − μ2

con longitud mı́nima es


 
Sd,n Sd,n
Dn − t1− α2 (n − 1) √ , Dn + t1− α2 (n − 1) √
n n
siendo
• Di = Xi − Yi (D = X − Y )

• D ∼ N μ1 − μ2 , σ12 + σ22 − 2ρσ1 σ2
1  n 1 n
• Sd,n
2
= (Di − Dn )2 , Dn = Di
n − 1 i=1 n i=1
La deducción de este intervalo confidencial corresponde a la de un intervalo
confidencial del 100(1 − α)% de confianza para μd = μ1 − μ2 bajo Normalidad
y asumiendo que la varianza σ12 + σ22 − 2ρσ1 σ2 es desconocida. Por lo tanto
constituye un caso particular de un intervalo ya desarrollado.
3.3. ESTIMACIÓN DE PROMEDIOS, BAJO NORMALIDAD 129

3.3.4 Intervalos confidenciales para la diferencia de prome-


dios en poblaciones independientes
Sean X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población Nor-
mal con valor esperado μ1 y varianza σ12 , y Y1 , Y2 , . . . , Ym una muestra aleatoria
de tamaño m de una población Normal con valor esperado μ2 y varianza σ22 .
Las dos poblaciones son estadı́sticamente independientes. Los casos que se con-
sideran a continuación también corresponden a supuestos que se hacen sobre las
varianzas poblacionales.
Caso 1
Un intervalo confidencial del 100(1− α)% para la diferencia de promedios de dos
poblaciones independientes, de longitud mı́nima, cuando σ12 y σ22 son conocidas
se desarrolla con base en los siguientes elementos:
   
σ12 σ22
X n ∼ N μ1 , , Y m ∼ N μ2 ,
n m
 
σ2 σ2
(X n − Y m ) ∼ N μ1 − μ2 , 1 + 2
n m

(X n − Y m ) − (μ1 − μ2 )
QX = 8 ∼ N (0, 1)
σ12 σ22
+
n m
A partir de esta variable pivote para (μ1 − μ2 ), puede generarse el intervalo
confidencial correspondiente
 8 8 
σ12 σ22 σ12 σ22
(X n − Y m ) − z1− α2 + , (X n − Y m ) + z1− α2 +
n m n m
Caso 2
Un intervalo del 100(1 − α)% para la diferencia de promedios poblacionales
correspondientess a dos poblaciones independientes, de longitud mı́nima, bajo
el supuesto de que las varianzas poblacionales son desconocidas pero iguales, se
desarrolla teniendo en cuenta lo siguiente:
Sea σ12 = σ22 = σ 2 , entonces
(X n − Y m ) − (μ1 − μ2 )
8 ∼ N (0, 1)
σ2 σ2
+
n m


n
(Xi − X n )2
(n − 1)S1,n
2
i=1
= ∼ χ2 (n − 1)
σ2 σ2

n
(Yj − Y m )2
(m − 1)S2,m
2
j=1
= ∼ χ2 (m − 1)
σ2 σ2
130 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

como las poblaciones son estadı́sticamente independientes,


n n
(Xi − X n )2 + (Yj − Y m )2
i=1 j=1
∼ χ2 (m + n − 2)
σ2
(n − 1)S1,n
2
+ (m − 1)S2,m
2

2
∼ χ2 (m + n − 2)
σ

y a partir de estos resultados, la variable pivote para μ1 − μ2 será por lo tanto


(X n −Y m )−(μ1 −μ2 )
√1 1
σ n +m
QX = . 2 +(m−1)S 2
(n−1)S1,n 2,m
(m+n−2)σ2

(X n − Y m ) − (μ1 − μ2 )
QX = . ∼ t(n + m − 2)
Sp,n+m n1 + m 1

2
(n − 1)S1,n
2
+ (m − 1)S2,m2
donde Sp,n+m = es el estimador de la varianza
(n + m − 2)
común σ 2 . El intervalo confidencial para (μ1 − μ2 ) basado en esta variable
pivote tiene como lı́mite confidencial inferior a
8
1 1
(X n − Y m ) − t1− α2 (n + m − 2)Sp,n+m +
n m
y como lı́mite confidencial superior a
8
1 1
(X n − Y m ) + t1− 2 (n + m − 2)Sp,n+m
α +
n m
Caso 3
Un intervalo confidencial del 100(1 − α)% de confianza para la diferencia de los
promedios de dos poblaciones independientes de longitud mı́nima, cuando las
varianzas poblacionales se asumen distintas y desconocidas, está basado en la
variable pivote
(X n − Y m ) − (μ1 − μ2 )
T = . 2 2
S1,n S2,m
n + m

variable que tiene una distribución similar a la distribución t. Se puede decir


que tiene distribución t aproximada con v grados de libertad.
Welch propone que los grados de libertad v deben ser el entero más cercano
a
 s2 s22,m
2
1,n
n + m
v ≈ s2 2 s2 2
1,n 2,m
n m

n−1 + m−1
3.4. ESTIMACIÓN DE VARIANZAS, BAJO NORMALIDAD 131

de esta manera, el intervalo confidencial en consideración es:


⎛   ⎞
2
S1,n 2
S2,m 2
S1,n 2
S2,m
⎝(X n − Y m ) − t1− α (v) + , (X n − Y m ) + t1− α2 (v) + ⎠
2
n m n m

3.4 Estimación de varianzas, bajo Normalidad


3.4.1 Intervalos confidenciales para la varianza de una po-
blación
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución
Normal de valor esperado μ y varianza σ 2 . Dependiendo el supuesto asumido
para μ se consideran dos casos.
Caso 1
Un intervalo confidencial del 100(1 − α)% para σ 2 cuando μ es conocido se basa
en la siguiente variable pivote

n
(Xi − μ)2
i=1
∼ χ2 (n)
σ2
por lo tanto la determinación del intervalo confidencial es como sigue. El punto
de partida
⎡ n ⎤
(Xi − μ)2
⎢ ⎥
Pσ2 ⎢
⎣a <
i=1
2
< b⎥
⎦=1−α
σ

que corresponde gráficamente al esquema que presenta la figura 3.3. Equivalen-


temente

⎡ ⎤
⎢1 σ2 1⎥
Pσ2 ⎢
⎣b <  < ⎥=1−α
n
a⎦
(Xi − μ)2
i=1

es decir
⎡
n 
n ⎤
(Xi − μ)2 (Xi − μ)2
⎢ i=1 ⎥
Pσ2 ⎢
⎣ < σ2 < i=1 ⎥=1−α

b a
132 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

fQX (q)

1−α

a b q

Figura 3.3: Esquema del punto de partida del método de la variable pivote para
el caso 1

La longitud del intervalo


⎛n 
n ⎞
(Xi − μ)2 (Xi − μ)2
⎜ i=1 ⎟
⎜ , i=1 ⎟
⎝ b a ⎠

manifestado en este punto de la deducción puede minimizarse. La longitud


mencionada,

n 
n
(Xi − μ)2 (Xi − μ)2 
n  
i=1 i=1 1 1
LI = − = (Xi − μ)
2

a b i=1
a b

está sujeta a la relación fundamental entre a y b,


 b
fQX (q)dq = 1 − α = FQX (b) − FQX (a)
a

Utilizando los recursos del Cálculo diferencial,


 n  
∂ 1 1 ∂
LI = (Xi − μ)2 − 2 + 2 b
∂a i=1
a b ∂a

de la relación fundamental entre a y b se deduce que



0 = fQX (b) b − fQX (a)
∂a

fQX (a) ∂
= b
fQX (b) ∂a
3.4. ESTIMACIÓN DE VARIANZAS, BAJO NORMALIDAD 133

∂ 1 1 ∂
luego LI = 0 cuando 2 = 2 b, es decir, cuando
∂a a b ∂a
1 1 fQX (a)
= 2
a2 b fQX (b)
Concretamente, el intervalo confidencial tiene longitud mı́nima cuando

a2 fQX (a) = b2 fQX (b)

Establecidos los grados de libertad y en nivel confidencial (1 − α), es posi-


ble identificar los valores de a y b que cumplen con la anterior condición, a
través de métodos numéricos. Algunos autores han desarrollado tablas para
este propósito, pero es fácil elaborar un programa de computador que los cal-
cule. Esta limitación menor se elude en la medida que se cuente con una muestra
grande.
Corrientemente, para muestras grandes se prefiere

a = χ2α2 (n) b = χ21− α2 (n)

como gráficamente lo ilustra la figura 3.4

fQX (q)

α
2

1−α
α
2

a b q
(χ2α ) (χ21− α )
2 2

Figura 3.4: Elección corriente de los valores a y b para el intervalo confidencial


correspondiente al caso 1

En sı́ntesis, el intervalo confidencial del 100(1 − α)% de confianza para σ 2 cuya


longitud no es mı́nima, usado corrientemente es
⎛ n n ⎞
(X − μ) 2
(Xi − μ)2
⎜ i=1 i ⎟
⎜ , i=1 ⎟
⎝ χ2 α (n) 2
χ α (n) ⎠
1− 2 2

Caso 2
Un intervalo confidencial del 100(1 − α)% de confianza para σ 2 cuando μ es
134 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

desconocido es
⎛
n 
n ⎞
(Xi − X n )2 (Xi − X n )2
⎜ i=1 ⎟
⎜ , i=1 ⎟
⎝ χ2 (n − 1) χ2 (n − 1) ⎠
1− α
2
α
2

Intervalo confidencial que se puede construir a partir de la variable pivote para


σ2 :

n
(Xi − X n )2
i=1
QX = ∼ χ2 (n − 1)
σ2
y cuya deducción es idéntica al Caso 1.
El intervalo de longitud mı́nima, al igual que el anterior, debe ser aquel para el
cual se cumpla que

a2 fQX (a) = b2 fQX (b)

3.4.2 Intervalos confidenciales para el cociente de varian-


zas de dos poblaciones independientes
Sean X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población Nor-
mal con valor esperado μ1 y varianza σ12 , y Y1 , Y2 , . . . , Ym una muestra aleatoria
de tamaño m de una población Normal con valor esperado μ2 y varianza σ22 .
Las dos poblaciones son estadı́sticamente independientes. Los casos que se con-
sideran a continuación también corresponden a supuestos que se hacen sobre las
varianzas poblacionales.
Caso 1
Un intervalo confidencial del 100(1 − α)% de confianza para el cociente de va-
σ2
rianzas σ12 de dos poblaciones independientes, cuando μ1 y μ2 son conocidos es
2
el siguiente
⎛ n n ⎞
(X − μ1 ) /n
2
(Xi − μ1 ) /n
2
⎜ i=1 i ⎟
⎜ f α (m, n),
i=1
f1− α2 (m, n)⎟
⎝ m 2 m ⎠
(Yj − μ2 )2 /m (Yj − μ2 )2 /m
j=1 j=1

En efecto,


n 
m
(Xi − μ1 )2 (Yj − μ2 )2
i=1 j=1
∼ χ (n)
2
∼ χ2 (m)
σ12 σ22

con base en estas variables y reiterando la independencia estadı́stica de las


3.4. ESTIMACIÓN DE VARIANZAS, BAJO NORMALIDAD 135

σ12
poblaciones se construye la siguiente variable pivote para σ22


m 
m
(Yj − μ2 )2 /(mσ22 ) (Yj − μ2 )2 /m
j=1 σ 2 j=1
QX = 
n = 12  ∼ F (m, n)
σ2 n
(Xi − μ1 )2 /(nσ12 ) (Xi − μ1 )2 /n
i=1 i=1

Al partir de
⎡ 
m ⎤
(Yj − μ2 )2 /m
⎢ σ12 j=1 ⎥
Pσ12 ,σ22 ⎢
⎣a < < b⎥
⎦=1−α
σ22 n
(Xi − μ1 )2 /n
i=1

que corresponde gráficamente al esquema que presenta la figura 3.5.

fQX (q)

1−α

a b q

Figura 3.5: Esquema del punto de partida del método de la variable pivote para
el caso 1

surge un intervalo confidencial para el cociente de varianzas debido a que


⎡ n n ⎤
(Xi − μ1 )2 /n (X − μ )2
/n
⎢ i=1 σ12
i 1

Pσ12 ,σ22 ⎢a
⎣ m < 2 < b i=1
m
⎥=1−α

σ
(Yj − μ2 ) /m
2 2 (Yj − μ2 ) /m
2
j=1 j=1

Para simplificar los pasos posteriores en la construcción del intervalo confidencial


en consideración, se establece la sustitución

n
(Xi − μ1 )2 /n
i=1
T = m
(Yj − μ2 )2 /m
j=1
136 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

con ello
 
σ2
Pσ12 ,σ22 aT < 12 < bT = 1 − α
σ2

y la longitud del intervalo LI es

LI = bT − aT = T (b − a)

longitud que se minimiza como en casos anteriores haciendo uso de los proce-
dimientos respectivos del cálculo diferencial.
 
∂ ∂
LI = T b−1
∂a ∂a
 
∂ fQX (a) ∂ fQX (a)
como ya se ha establecido b = , luego LI = T −1 ,
∂a fQX (b) ∂a fQX (b)

entonces LI = 0 cuando fQX (a) = fQX (b).
∂a
Similarmente al caso de los intervalos confidenciales de longitud mı́nima para
las varianzas bajo normalidad, establecidos los grados de libertad y el nivel
confidencial (1 − α), es posible identificar los valores de a y b que cumplen
con la condición anterior, como lo muestra la figura 3.6, por medio de métodos
numéricos. De la misma manera, es fácil elaborar un programa de computador
que los calcule. E igualmente esta limitación se soslaya en la medida que se
cuente con muestras grandes.

fQX (q)

1−α

a b q

Figura 3.6: Elección de los valores a y b que minimizan la longitud del intervalo
confidencial correspondiente al caso 1

Para n y m grandes, corrientemente se utilizan a = f α2 (m, n), b = f1− α2 (m, n),


3.5. EJEMPLOS NUMÉRICOS DE APLICACIÓN 137

σ12
en cuyo caso, el intervalo confidencial para σ22
del 100(1 − α)% de confianza es
⎛ n n ⎞
(Xi − μ1 )2 /n (Xi − μ1 )2 /n
⎜ i=1 ⎟
⎜ f α2 (m, n) , i=1 f α (m, n)⎟
⎝ m m 1− 2 ⎠
(Yj − μ2 )2 /m (Yj − μ2 )2 /m
j=1 j=1

Caso 2
Un intervalo confidencial del 100(1 − α)% de confianzas para el cociente de va-
σ2
rianzas σ12 de dos poblaciones independientes, cuando μ1 y μ2 se desconocen,
2
es
⎛ n n ⎞
(Xi − X n )2 /(n − 1) (Xi − X n )2 /(n − 1)
⎜ i=1 ⎟
⎜ a , i=1 b⎟
⎝ m m ⎠
(Yj − Y m )2 /(m − 1) (Yj − Y m )2 /(m − 1)
j=1 j=1

σ12
intervalo confidencial basado en la variable pivote para σ22

m

2
(Yj − Y m )2 /(m − 1)
σ1 j=1
QX = ∼ F (m − 1, n − 1)
σ22 n
(Xi − X n )2 /(n − 1)
i=1

Para tamaños de muestra suficientemente grandes, un intervalo confidencial para


σ12
σ2
es
2

 
2 2
S1,n S1,n
2 F α2 (m − 1, n − 1), 2 F1− α2 (m − 1, n − 1)
S2,m S2,m

3.5 Ejemplos numéricos de aplicación


Ejemplo 3.5.1. El servicio de asesorı́a estadı́stica que la Universidad Nacional
presta a través del Departamento, realizó en 1997 un estudio de opinión sobre
la Justicia en Colombia y entre muchos de los interrogantes que el Consejo Su-
perior de la Judicatura querı́a dilucidar con esta investigación era la percepción
de los abogados, que se desempeñan en el área penal, frente al nuevo sistema
acusatorio, fruto de la creación de la Fiscalı́a. Para ello diseñó una muestra en
varias etapas y concretamente encontró que 315 abogados de los 509 entrevis-
tados consideraron que el nuevo sistema acusatorio no es un instrumento en la
lucha contra la impunidad. Con base en estos resultados se precisa estimar con
una confianza del 95% el nivel de asentimiento del nuevo sistema acusatorio por
parte de los abogados penalistas, en ese momento.
Siendo p509 = 315/509 = 0.61886 la proporción de interés en la muestra, y con la
138 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

adopción de z0.975 = 1.96 y debido a que npn = 315 > 5 y n(1 − pn ) = 194 > 5,
entonces se puede estimar con una confianza del 95% que entre el 57.66% y el
66.1% de los abogados que se desempeñan en asuntos del Derecho Penal, consi-
deran que el nuevo sistema acusatorio no es un instrumento contra la impunidad
puesto que la estimación por intervalo de la proporción en mención es
 8 8 
pn (1 − pn ) pn (1 − pn )
pn − z1− α2 , pn + z1− α2
n n
 8 8 
0.6188 ∗ 0.3811 0.6188 ∗ 0.3811
= 0.6188 − 1.96 , 0.6188 + 1.96
509 509
= (0.5766, 0.6610)

Ejemplo 3.5.2. Antes de implementar los gráficos de control, para el moni-


toreo de un proceso industrial, es preciso desarrollar varias actividades, entre
otras el llamado precontrol. El modelo Normal es una herramienta muy uti-
lizada en esta etapa para estimar el promedio del proceso e igualmente para
determinar sus cambios.
Para controlar estadı́sticamente el proceso de fabricación de un tipo de fibra para
la elaboración de alfombras, se analiza la información relativa a la resistencia a
la tensión de trozos de fibra, en kilogramos, elegidos para la respectiva prueba
en el laboratorio. En diez periodos de inspección con cinco trozos cada uno,
se acopió la siguiente información con el propósito de estimar el promedio de
resistencia de la fibra.

Perı́odo Resistencias observadas


1 78.4 79.9 78.9 78.3 77.5
2 75.9 75.1 75.1 79.9 77.1
3 78.9 78.4 78.1 78.3 77.8
4 75.9 79.5 79.1 77.9 77.5
5 78.1 79.9 77.9 77.8 79.9
6 77.1 79.7 76.9 78.4 79
7 77.9 79.5 78.9 78.5 78.9
8 78.9 79.8 78.6 78.2 77.6
9 78.5 79.5 79.9 78.4 77.7
10 78.6 79.9 78.6 77.4 77.5

Para cumplir con la estimación mencionada, se consideran las 50 observaciones


como una sola muestra particular de tamaño 50, que presenta un promedio de
78.3 Kg y una desviación estándar de 1.184078 Kg, con lo cual se estima con
una confianza del 95% que la resistencia media a la tensión está entre 77.96 Kg
y 78.63 Kg puesto que la estimación por intervalo del 95% de confianza para el
3.6. TAMAÑO DE LA MUESTRA SIMPLE BAJO NORMALIDAD 139

promedio de resistencia, desconocida la varianza poblacional, es


 
sn sn
xn − t1− α2 (n − 1) √ , xn + t1− α2 (n − 1) √
n n
 
1.184078 1.184078
= 78.3 − 2.009574 √ , 78.3 + 2.009574 √
50 50
= (77.9634, 78.6365)

3.6 Tamaño de la muestra simple bajo Norma-


lidad
Esta sección es una presentación sucinta, dedicada al tamaño la de muestra.
Este tema primordial y complejo es un tema extenso que abarca varios aspec-
tos incluyendo el relativo a la determinación de la numerosidad de la muestra
propiamente dicha. Si el lector continúa trabajando sobre conceptos del área de
la Estadı́stica, tendrá la oportunidad de profundizar sobre este tema tan fun-
damental tanto en el diseño como en la ejecución de investigaciones auxiliadas
por la Estadı́stica. Entonces esta sección se trata de un modesto anticipo sin la
menor pretensión de lo que significa la determinación del tamaño muestral.
Para estimar el parámetro μ, promedio poblacional, se puede deducir el
tamaño de una muestra a partir de la expresión de uno de sus intervalos confi-
denciales.
 
σ σ
P X n − z1− 2 α √ < μ < X n + z1− 2 α √ =1−α
n n
 
σ σ
P −z1− α2 √ < μ − X n < z1− α2 √ =1−α
n n
 
σ
P |X n − μ| < z1− α2 √ =1−α
n


P |X n − μ| < e = 1 − α
Fijando de antemano como medida de precisión de la estimación de μ el valor
z1− α2 √σn = e, el tamaño de muestra puede ser derivado inmediatamente como
 z1− α σ 2
2
n=
e
En esta expresión corriente del tamaño de una muestra simple, e se denomina
error máximo admisible en la estimación de μ, o margen de error, y con-
stituye una cota para la diferencia aleatoria |X n − μ|. Con la denominación de
confianza se hace referencia al valor 1 − α, y el valor de σ usualmente se estima
por medio de una muestra llamada muestra piloto, en caso de no asumirlo
conocido. Para estimar la diferencia de promedios entre dos poblaciones inde-
pendientes, los tamaños de muestra pueden establecerse como
 z1− α 2
n=m= 2
(σ12 + σ22 )
e
140 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

En el ejercicio 11 se deduce la expresión anterior.

n
 2
1 z1 −α/2
4 e

1
2 1 π

Figura 3.7: Tamaño holgado de la muestra para estimar la proporción pobla-


cional

Para estimar la proporción poblacional π, el tamaño de muestra requerido es


 z1− α 2
n= 2
π(1 − π)
e
cuyo tamaño más holgado puede adoptarse como
 z1− α 2  1 
2
n=
e 4
pues al ser n una función de π, además de otras variables,
 z1− α 
n = g(π) = 2
π(1 − π)
e
su máximo puede determinarse fácilmente en los siguientes términos.
 z1− α 
g  (π) = 2
(1 − 2π)
e
 z1− α 
g  (π) = −2 2
<0
e
1
g  (π) = 0 cuando π =
2
como lo destaca la figura 3.7

3.7 Estimación Bayesiana por intervalo


El numeral 2.1.4 de la página 65 se dedicó a la presentación de algunas ideas
globales de la estimación Bayesiana. Precisamente se definió como función de
densidad a posteriori de Θ a la función de densidad condicional
fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn )
3.7. ESTIMACIÓN BAYESIANA POR INTERVALO 141

y ésta permite deducir directamente un intervalo para estimar el parámetro θ.


Definición 3.7.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x|θ), gΘ (θ) la función de densidad a priori de Θ, y
fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) la función de densidad a posteriori de Θ. Sean
θ0 y θ1 dos valores de la variable aleatoria Θ tales que
 θ1
P [θ0 < Θ < θ1 ] = fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn )dθ = 1 − α
θ0

entonces el intervalo (θ0 , θ1 ) se denomina intervalo Bayesiano para θ de pro-


babilidad 1 − α.
El intervalo (θ0 , θ1 ) se adopta como una estimación de θ con probabilidad
asociada 1 − α, cuya interpretación no es la misma que la de una estimación
por intervalo del 100(1 − α)% para el mismo parámetro. Es válido entonces
decir, dentro del enfoque Bayesiano, que la probabilidad de que el parámetro se
encuentre entre los valores θ0 y θ1 es 1 − α, más serı́a una interpretación errónea
si se tratase de una estimación por intervalo.
Ejemplo 3.7.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población
con distribución Normal de valor esperado θ y varianza σ 2 asumida como una
constante conocida, y si la distribución a priori de Θ se establece como Nor-
mal de valor esperado μp y varianza σp2 , el ejemplo 2.1.16 de la página 68,
menciona que la distribución a posteriori de Θ es Normal de valor esperado
nσp2 xn + μp σ 2 2
σp2 σ 2
μ∗ = y varianza σ ∗ = . Entonces
nσp2 + σ 2 nσp2 + σ 2
 
θ0 − μ∗ θ1 − μ∗
P [θ0 < Θ < θ1 ] = P <Z< =1−α
σ∗ σ∗

El intervalo Bayesiano (θ0 , θ1 ) tiene longitud mı́nima escogiendo


θ0 − μ∗ θ1 − μ∗
= −z1− α2 y = z1− α2
σ∗ σ∗
de esta forma el intervalo Bayesiano de probabilidad 1 − α bajo las condiciones
establecidas es
⎛ ⎞
nσp2 xn + μp σ 2 σp σz1− α2 nσp2 xn + μp σ 2 σp σz1− α2
⎝ − 1 , + 1 ⎠
nσp2 + σ 2 nσ 2 + σ 2 2 nσp2 + σ 2 nσ 2 + σ 2 2
p p

Tanto la estimación como los intervalos Bayesianos tratados en este tex-


to son menciones tangenciales de unos conceptos que pertenecen a un cuerpo
conceptual propio dentro de la Estadı́stica: el Análisis Bayesiano o Estadı́stica
Bayesiana. El lector puede contar con una extensa bibliografı́a en el tema si es
de su interés conocer a profundidad la filosofı́a y los métodos de este enfoque
estadı́stico.
142 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

3.8 Demostración de los teoremas del capı́tulo


 
(1) (2)
Demostración (Teorema 3.1.1). Como Tn , Tn es un intervalo confi-
 
(1) (2)
dencial para θ es porque en particular Pθ Tn < Tn = 1. Si r(θ) es una fun-
    
(1) (2)
ción estrictamente decreciente, entonces Pθ r Tn > r Tn = 1 y el even-
      
(1) (2) (1) (2)
to r Tn > r(θ) > r Tn es equivalente al evento Tn < θ < Tn ,
por lo tanto
      
1 − α = Pθ Tn(1) < θ < Tn(2) = Pθ r Tn(2) < r(θ) < r Tn(1)
    
(2) (1)
como 1−α no depende de θ y Pθ r Tn < r Tn = 1, el intevalo aleatorio
    
(2) (1)
r Tn , r Tn es un intervalo confidencial del 100(1 − α)% de confianza
para la imagen de θ bajo la función r.     
(1) (2)
De manera similar, el intervalo aleatorio r Tn , r Tn es un intervalo
confidencial del 100(1 − α)% para la imágen de θ bajo la función r, cuando ésta
es una función estrictamente creciente.

Demostración (Teorema 3.2.2). Los argumentos de la demostración de este


teorema se basan en ideas circundantes a la información de Fisher y en el teo-
rema del lı́mite central.
El elemento original consiste en considerar la variable aleatoria


H(X, θ) = [ln fX (X, θ)]
∂θ

Esta variable tiene valor esperado cero y varianza I(θ).


 ∞

E[H(X, θ)] = [ln fX (x, θ)] fX (x, θ) dx
−∞ ∂θ
 ∞ ∂ fX (x, θ)
= ∂θ fX (x, θ) dx
−∞ fX (x, θ)
 ∞

= fX (x, θ) dx
−∞ ∂θ
 ∞
∂ ∂
= fX (x, θ) dx = (1) = 0
∂θ −∞ ∂θ


V [H(X, θ) = E H 2 (X, θ) = I(θ)]

Creada de esta forma la variable aleatoria H(X, θ), la sucesión de variables


aleatorias, H(X1 , θ), H(X2 , θ), . . . , H(Xn , θ) constituye una muestra aleatoria
de tal manera que aplicando la versión de Lindeberg-Feller del teorema del lı́mite
3.8. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 143

central, teorema 1.4.10, página 16,



n n ∂
H(Xi , θ) [ln fX (Xi , θ)]
i=1 i=1 ∂θ d
 =  −
→ Z ∼ N (0, 1)
nI(θ) nI(θ)
Como se afirma que Tn es un estimador insesgado para la imágen de θ bajo la
función r, cuya varianza es la cota de Cramer-Rao, es porque existe una función
K(θ, n) tal que
 n 
∂ n

ln fX (Xi , θ) = ln fX (Xi , θ) = K(θ, n) [Tn − r(θ)]
∂θ i=1 i=1
∂θ

como lo asegura el corolario 2.2.10.1, página 87, esto es



n
H(Xi , θ) = K(θ, n) [Tn − r(θ)]
i=1

por lo tanto

1  n
Tn = r(θ) + H(Xi , θ)
K(θ, n) i=1

expresión de la cual se puede afirmar que


nI(θ)
V [Tn ] =
K 2 (θ, n)
entonces

n
H(Xi , θ)
i=1 K(θ, n) [Tn − r(θ)] Tn − r(θ)
 =  = 
nI(θ) 2
K (θ, n)V [Tn ] V [Tn ]
Como Tn es insesgado pra la imagen de θ bajo la función r, cuya varianza es
la cota de Cramer-Rao,
(r (θ))2
V [Tn ] =
nI(θ)
lo cual finalmente permite concluir que

Tn − r(θ) nI(θ) d
.  2 = [Tn − r(θ)] −
→ Z ∼ N (0, 1)
(r (θ)) r (θ)
nI(θ)

Demostración (Teorema 3.3.1). El hecho de que Tn sea MLE e insesgado


para θ, cuya varianza corresponde a la cota de Cramer-Rao, permite garantizar,
según el teorema 3.2.2 que

QX = nI(θ)(Tn − θ)
144 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

converge en distribución a una variable aleatoria con distribución normal estándar;


luego para un tamaño de muestra suficientemente grande, QX se puede asumir
como una variable aleatoria pivote para θ. Ası́ entonces,
  
Pθ a < nI(θ)(Tn − θ) < b = δn ≈ 1 − α

La probabilidad δn es cercana a 1 − α, porque en la práctica n es finito, proba-


bilidad que no depende de θ y como la información de Fisher es una cantidad
positiva

a b
δn = Pθ  < Tn − θ < 
nI(θ) nI(θ)

b a
= Pθ −  < θ − Tn < − 
nI(θ) nI(θ)

b a
= Pθ Tn −  < θ < Tn − 
nI(θ) nI(θ)
la elección de a y b puede ser hasta cierto punto arbitraria, sujeta a la relación
entre a y b para garantizar el nivel de confianza δn , pero pueden utilizarse los
valores que generan el intervalo de longitud mı́nima como en los casos 1 y 2
tratados en el numeral 3.3.1. En concreto, una estimación aproximadamente
del 100(1 − α)% de confianza para θ puede realizarse mediante el intervalo con-
fidencial,
 
z1− α2 z1− α2
Tn −  , Tn + 
nI(θ) nI(θ)

3.9 Ejercicios del capı́tulo


1. Sea X1,n , X2,n , . . . , Xn,n una muestra aleatoria ordenada de una población
con distribución Uniforme en el intervalo (0, θ), y sean las estadı́sticas
(1) (2)  1 n
Tn = Xn,n , Tn =  c Xn,n , con c una constante. Muestre que el
(1) (2)
intervalo Tn , Tn , es un intervalo confidencial para θ, determine el
valor esperado de la longitud del intervalo y su nivel confidencial.
2. Siendo las variables aleatorias X1 , X2 , . . . , Xn , una muestra aleatoria de
una población con función de densidad
fX (x, θ) = e−(x−θ) I(θ,∞) (x)

¿Es el intervalo aleatorio X1,n + n1 ln α, X1,n un intervalo confidencial
del 100(1 − α)% de confianza para θ?.
3. Explore la forma de estimar por intervalo el parámetro θ, a partir de una
muestra alatoria X1 , X2 , . . . , Xn , de una población con distribución de
Poisson de parámetro θ.
3.9. EJERCICIOS DEL CAPÍTULO 145

4. Asumiendo que θ1 es una cantidad conocida, proponga una forma de es-


timar por intervalo el parámetro θ2 , a partir de una muestra aleatoria
X1 , X2 , . . . , Xn , de una población con función de densidad

θ2θ1 θ1 −1 − θx
fX (x, θ) = x e 2 I(0,∞) (x)
Γ(θ1 )

5. Explore la forma de estimar por intervalo el parámetro θ, y θ2 a partir de


una muestra aleatoria X1 , X2 , . . . , Xn , de una población con distribución
Normal de valor esperado θ y varianza kθ2 , conocido el valor de k.
6. Considere el intervalo confidencial de longitud mı́nima para el valor espe-
rado, desconocida la varianza , bajo el modelo Gaussiano. ¿Cómo varı́a el
valor esperado de la longitud del intervalo cuando el tamaño de muestra se
incrementa?. Y además, ¿Cuál es la relación entre el citado valor esperado
y el nivel confidencial?.
7. Consiga una forma de estimar por intervalo el coeficiente de variación σ/μ
a partir de una muestra aleatoria X1 , X2 , . . . , Xn , de una población con
distribución Gaussiana de valor esperado μ y varianza σ 2 .
8. Suponiendo que σ12 /σ22 = c, c una constante conocida, determine un inter-
valo confidencial para la diferencia μ1 −μ2 con base en dos muestras aleato-
rias independientes de sus respectivas poblaciones cuyas distribuciones son
asumidas como Gaussianas de valores esperados μ1 , μ2 y varianzas σ12 , σ22 ,
respectivamente.
9. Asumiendo θ1 como una constante conocida, explore la forma de estimar
por medio de un intervalo confidencial el parámetro θ2 , basado en una
muestra aleatoria X1 , X2 , . . . , Xn , de una población con distribución de
Pareto, es decir con función de densidad

θ2 θ1θ2
fX (x, θ) = I(θ ,∞) (x)
xθ2 +1 1
10. ¿Cuál de los dos intervalos confidenciales para la estimación de la propor-
ción poblacional, presentados en el numeral 3.3.2, prefiere utilizar?.
11. Deduzca la expresión para el tamaño de la muestra simple requerido en la
estimación de la diferencia de promedios en poblaciones independientes,
bajo Normalidad.
12. En número de disconformidades de una baldosa de cerámica se modela
para efectos de control de calidad, como una variable aleatoria con dis-
tribución de Poisson. La variabilidad propia del proceso de manufactura,
sugiere reconocer al parámetro como una variable aleatoria, para la cual se
propone un modelo Exponencial de parámetro igual a uno. Determine un
intervalo Bayesiano para estimar la tasa de disconformidades por unidad,
con base en una muestra aleatoria de tamaño n.
146 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS

13. Deduzca un intervalo confidencial del 100(1 − α)% de confianza para θ,


basado en una muestra aleatoria censurada de una población con función
de densidad tal como la presenta el ejemplo 2.1.8, de la página 59
14. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con fun-
ción de 1densidad
Uniforme en el intervalo (0, θ). Fijo el valor k, ¿es
Xn,n , kn Xn,n un intervalo confidencial para el parámetro θ?. Si dicho
intervalo aleatorio es un intervalo confidencial, determine su correspon-
diente coeficiente confidencial.
15. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-
ción Beta con θ1 = 3 y θ2 = θ. Determine un intervalo confidencial del
100(1 − α)% de confianza para θ.
16. Sea X1 , X2 , . . . , Xn , una muestra aleatoria
 de una población con función
de densidad Uniforme en el intervalo θ − 12 , θ + 12 . Determine un inter-
valo confidencial del 100(1 − α)% de confianza para θ.
17. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función
de densidad
fX (x, θ) = θ exp(−θx)I(0,∞) (x)
Determine un intervalo confidencial del 100(1 − α)% de confianza para
P [X > 1].
18. Teniendo en cuenta el ejercicio anterior, determine un intervalo confiden-
cial del 100(1 − α)% de confianza para θ, basado únicamente en el mı́nimo
de la muestra.
19. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función
de densidad
2x
fX (x, θ) = 2 I(0,θ) (x), con θ > 0
θ
Determine un intervalo confidencial del 100(1 − α)% de confianza para θ.
20. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función
de densidad
1 1
fX (x, θ) = x θ −1 I(0,1) (x), con θ > 0
θ
Determine un intervalo confidencial del 100(1 − α)% de confianza para θ.
21. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función
de densidad
fX (x, θ) = θxθ−1 I(0,1) (x), con θ > 0
Determine un intervalo Bayesiano para θ, si la distribución a priori de Θ
es Gama con los componentes del parámetro especificados.
Capı́tulo 4

JUZGAMIENTO DE
HIPÓTESIS

A este capı́tulo tradicionalmente se le ha llamado prueba de hipótesis, contraste


de hipótesis, docimasia de hipótesis e incluso cotejo de hipótesis, como resulta-
do de las traducciones del vocablo inglés test, o testing, que con el propósito de
conservar su sentido original han sugerido estas expresiones mencionadas. Sin
embargo, al volver a examinar las acepciones de cada uno de los términos utiliza-
dos se encuentra que no ofrecen la precisión semántica necesaria para enmarcar
un sistema de conceptos substanciales dentro de la estructura conceptual de la
Inferencia estadı́stica.
Prueba de hipótesis tal vez la forma más cotidiana para referirse al contenido
del capı́tulo, utiliza un término que dentro de sus muchas acepciones, presenta
algunas asociadas con el tema. “Prueba: Razón, argumento, instrumento u
otro medio con que se pretende mostrar y hacer patente la verdad o falsedad de
algo. Ensayo o experimento que se hace de algo para saber cómo resultará en su
forma definitiva. Indicio, señal o muestra que se da de algo ”1 . Pero quizá uno
de sus sinónimos que mejor resume su sentido es cateo. Pero decidir a favor o
en contra de una aseveración que traduce una explicación apriorı́stica de algún
fenómeno particular de la realidad, aseveración cuya decisión se toma a la luz
de la información de la muestra, no puede entenderse como un cateo.
Por otra parte, contraste de hipótesis tampoco es una acertada elección para
la denominación del tema porque además de utilizar el vocablo contraste, muy
propio en el planteamiento de hipótesis en los Modelos Lineales o en el Diseño
Experimental entre otros, término que podrı́a introducir confusión, ninguna de
sus acepciones ligadas al tema es suficiente para describir globalmente esta área
del conocimiento estadı́stico. En efecto “Contrastar: Ensayar o comprobar y
fijar la ley, peso y valor de las monedas o de los objetos . . . Comprobar la exacti-
tud o autenticidad de algo. Mostrar notable diferencia, o condiciones opuestas,
1 Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda edi-

ción.2001

147
148 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

con otra, cuando se comparan ambas ”(op. cit.), es un término más cercano a
estimar o a destacar que a la toma de decisiones a partir de la información de
la muestra.
Docimasia como “Arte de ensayar los minerales para determinar la natu-
raleza y proporción de los metales que contienen ”2 , y de otras de sus acepciones,
presenta más un sentido de análisis que un sentido de opción por algo a la luz
de los hechos. Además su origen etimológico de ensayar o probar, la colocarı́a
como término sinónimo de prueba, y no habrı́an razones para adoptarla. Cotejo
como acción y efecto de cotejar, siendo cotejar “Confrontar algo con otra u otras
cosas; compararlas teniéndolas a la vista ”(op. cit), consistirı́a igualmente en
un simple sinómino de contraste, que no introduce elementos adicionales para
admitirlo como palabra nuclear.
Como juzgamiento es acción y efecto de juzgar, entendiendo que juzgar sig-
nifica “Deliberar acerca de la culpabilidad de alguien o de la razón que le asiste
en un asunto y sentenciar lo procedente. Decidir en favor o en contra y espe-
cialmente pronunciar como juez una sentencia acerca de alguna cuestión o sobre
alguno ”(op. cit), además de tomarse como directriz a una de sus acepciones
que condensa la finalidad de un procedimiento de toma de una decisión a fa-
vor o en contra de algo, juzgamiento por su parte es un vocablo que permite
construir una analogı́a magistral entre un juicio que se realiza ante un juez y
los elementos, pasos y conceptos en el acopio de información, su procesamiento
y la decisión que se toma ante una afirmación relativa al fenómeno en estu-
dio, que la Inferencia estadı́stica abstrae y estructura como una de sus partes
fundamentales.
En consecuencia este texto titula al presente capı́tulo como Juzgamiento de
Hipótesis, porque como se comprenderá en la medida que se vaya desarrollando,
se trata realmente de algo análogo a un juicio, particularmente a un juicio penal.
Para iniciar la exposición de los conceptos propios del juzgamiento de hipótesis,
se parte del concepto de Hipótesis Estadı́stica.

4.1 Elementos básicos


Definición 4.1.1. Una hipótesis estadı́stica es una aseveración o conjetura
acerca de la distribución de una población, afirmación que generalmente está
asociada a un subconjunto del espacio del parámetro Θ correspondiente al modelo
probabilı́stico que representa la citada población. Como notación, la aseveración
se enuncia después de la abreviatura H0 o H1 .
El juzgamiento de una hipótesis estadı́stica es un proceso que culmina
con una decisión de rechazar o de no rechazar una hipótesis con base en la
información de una muestra aleatoria X1 , X2 , . . . , Xn de una población para
la cual se ha asumido un modelo probabilı́stico cuya función de densidad es
fX (x, θ).

2 Gran Diccionario General de la Lengua Española. VOX. Segunda Edición. 1991


4.1. ELEMENTOS BÁSICOS 149

Definición 4.1.2. La hipótesis sobre la cual se estructura el proceso de juzga-


miento se denomina hipótesis nula, se denota H0 y se enuncia como

H0 : θ ∈ Θ 0 , Θ0 ⊂ Θ

Definición 4.1.3. La hipótesis elegida como contraste a la hipótesis nula se


denomina hipótesis alterna, se denota H1 y se enuncia como

H1 : θ ∈ Θ1 , Θ1 ⊂ Θ, Θ1 ∩ Θ0 = ∅

Definición 4.1.4. La diada de hipótesis nula y alterna constituye el sistema


de hipótesis del proceso de juzgamiento de la hipótesis nula, sistema que se
enuncia como

H0 : θ ∈ Θ0
f rente a
H1 : θ ∈ Θ1
 
Definición 4.1.5. Una hipótesis H : θ ∈ Θ , Θ ⊂ Θ se denomina hipótesis
simple si con dicha aseveración queda plenamente especificada la función de
densidad fX (x, θ). En caso contrario se denomina hipótesis compuesta.
Ejemplo 4.1.1. El diseño de un producto establece un envase de 20 onzas
fluidas; en consecuencia el proceso de llenado debe adecuarse a ese requerimiento
y deben planearse y ejecutarse los controles periódicos para poder tomar las
decisiones a que haya lugar sobre los ajustes a las máquinas y al proceso en
general una vez se obtenga y se procese la información pertinente durante los
controles.
Para respaldar cualquier decisión con el apoyo de procedimientos estadı́sticos,
una manera consistirı́a en idealizar el contenido del producto en el envase como
una variable aleatoria y adoptar un modelo probabilı́stico como regente de su
comportamiento. En particular si se elige el modelo Gaussiano como el más
idóneo para representar el contenido mencionado, con valor esperado θ y bajo
el supuesto de varianza conocida, la declaración H : θ = 20 indicativa de que
el proceso de llenado está centrado de acuerdo con el requerimiento del diseño,
corresponde a una hipótesis simple, puesto que conocida la varianza y admitido
θ = 20 como el valor esperado de la variable que representa el citado contenido,
queda plenamente determinada la distribución de dicha variable.
Por su parte la afirmación de que el proceso de llenado tiende a rebosar el envase,
traducida como H : θ > 20, corresponde a una hipótesis compuesta, porque
se trata de una afirmación que aunque lleva tácita la alusión a una variable
con distribución Gaussiana de varianza conocida, no identifica una distribución
singular.
Continuando dentro de este contexto industrial, si en el instante de cierre del
envase posterior al llenado, mediante la utilización de una fotocélula, se detectan
envases con contenido inferior a 18.5 fl oz, éstos son trasladados a un proceso
de reciclaje prácticamente sin costo alguno, mientras que los recipientes que
150 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

contienen 18.5 fl oz o más, no activan señal alguna de la fotocélula, siendo la


preocupación central por aquellos envases que contienen más de 20 fl oz pues
proporcionalmente al contenido adicional generan costos considerables. Para el
seguimiento del proceso, en cada perı́odo de control se acopia la información
correspondiente al contenido de 49 envases elegidos en forma aleatoria dentro
del lote de producción, como parte del aprestamiento para el control estadı́stico
de calidad del proceso, con la finalidad de decidir si deben realizarse ajustes a
las máquinas o al proceso en general, o por el contrario, para dar parte de la no
presencia de factores perturbadores del proceso.
El sistema de hipótesis que origina el procedimiento que permite la toma de
decisiones dentro de este proceso industrial particular, puede formularse ası́
H0 : θ = 20
f rente a
H1 : θ > 20
sistema entendido como el juzgamiento de la aseveración de que el proceso
está controlado o equivalentemente que está centrado en 20 fl oz, declaración
concretada en la hipótesis nula H0 y enfrentada a una manifestación de una
situación alternativa relacionada con la inconveniencia de producir unidades
con contenido superior al establecido por el diseño del producto, representada
por la hipótesis alterna H1 .
Definición 4.1.6. El proceso de juzgamiento de la hipótesis nula conlleva un
procedimiento, regla o norma que permite tomar la decisión a que haya lugar,
denominado test. Como notación, el test se enuncia después de la letra τ .
Definición 4.1.7. El test utilizado dentro del proceso de juzgamiento de la
hipótesis nula H0 , tiene vinculado un subconjunto del espacio de las observa-
ciones X. Este subconjunto denotado por Cτ,n está determinado por su respec-
tivo test ası́
τ : “Rechazar la hipótesis H0 si (x1 , x2 , . . . , xn ) ∈ Cτ,n ”
El conjunto Cτ,n se denomina región crı́tica o región de rechazo del test
para juzgar a H0 y el test ası́ definido se denomina test no aleatorizado.
El conjunto X − Cτ,n recibe el nombre de región de aceptación del test para
juzgar a H0 .
Definición 4.1.8. Un test τ recibe la denominación de test aleatorizado para
el juzgamiento de la hipótesis nula H0 , si la función ψτ calculada en los valores
observados de una muestra aleatoria 0 < ψτ (x1 , x2 , . . . , xn ) < 1 determina la
probabilidad de éxito de una variable aleatoria Y con distribución de Bernoulli,
cuyos valores particulares se generan por un procedimiento aleatorio adicional,
y está definido como
τ : “Rechazar H0 si y = 1”
A la función ψτ se le denomina función crı́tica del test aleatorizado τ .
4.1. ELEMENTOS BÁSICOS 151

Como los tests aleatorizados no son del interés de este texto, debe entenderse
que dentro del contenido del presente capı́tulo el término test hace mención
únicamente a los tests no aleatorizados.
Ejemplo 4.1.2. Un test propuesto para el juzgamiento de H0 dentro del sis-
tema de hipótesis del ejemplo 4.1.1 es

τ : “Rechazar H0 si x49 > 20.27, en caso contrario no rechazarla”

norma que permite optar por la exploración y remoción de causas extrañas al


proceso responsables de la no adecuación a los requerimientos, si el contenido
promedio en una muestra aleatoria particular de 49 envases supera las 20.27
fl oz. Por otra parte permite no reportar novedad alguna en el desarrollo del
proceso, cuando el señalado promedio es a lo sumo 20.27 fl oz. La región crı́tica
asociada a este test es por consiguiente

Cτ,49 = {(x1 , x2 , . . . , x49 )|x49 > 20.27}

Cualquier decisión que se tome en el juzgamiento de una hipótesis estadı́stica,


lleva consigo el riesgo de incurrir en una opción equivocada. Como en la analogı́a
acogida, el juzgamiento de una persona en un tribunal o juzgado, es factible con-
cluir el correspondiente proceso judicial con una decisión ajustada a las normas
procesales y a la naturaleza de las pruebas, pero en realidad no acertada en
cuanto a la verdad de los hechos, verdad que no siempre el juez puede conocer
enteramente; por ello repetidamente se mencionan expresiones relativas a los
inocentes que se encuentran purgando penas, o a los culpables que gozan de
libertad plena. De manera similar a los errores en los cuales se puede incurrir
en el juzgamiento de una persona, análogamente en el juzgamiento de hipótesis
estadı́sticas se corren riesgos semejantes.
Ası́ como un proceso judicial termina en forma normal, con la decisión de un
juez o tribunal, el proceso de juzgamiento de una hipótesis nula culmina con una
decisión: ya sea la de rechazar la hipótesis nula cuando hay evidencia estadı́stica
para hacerlo o al no contar con dicha evidencia para rechazar la hipótesis, la de
optar por no rechazarla; en este sentido, cualquiera de las decisiones puede oca-
sionar una equivocación o error. Uno de ellos consiste en rechazar una hipótesis
nula cuando la hipótesis es verdadera, el otro en no rechazar una hipótesis nula
en el caso de ser falsa.
Cuando se traducen apartes de las explicaciones previas o provisionales de
un fenómeno a afirmaciones de carácter estadı́stico, o sea cuando se formali-
zan hipótesis estadı́sticas, éstas heredan la veracidad o falsedad acorde con la
explicación apriorı́stica del fenómeno. Esa veracidad o falsedad inmanentes a
la incertidumbre misma que motiva la realización de la investigación, no son
directamente el objetivo de su juzgamiento; el objetivo inmediato es la toma
de una decisión frente a la afirmación que determina la hipótesis a la luz de
la información contenida en los datos acopiados. En este sentido es pertinente
precisar que cuando se utilizan expresiones como: bajo la hipótesis ..., siendo
cierta la hipótesis..., debe entenderse que la afirmación de la frase precedente a
152 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

alguna de las expresiones mencionadas, o a otra similar, está condicionada a la


veracidad de la hipótesis en consideración, o al supuesto de que la afirmación
fuese verdadera.
Como los errores en los cuales se puede incurrir cuando se toma la decisión
están dependiendo de la real o supuesta veracidad de la hipótesis, la concisión y
denominación de cada uno de estos errores se indica en la definición siguiente.
Definición 4.1.9. Dentro del proceso de juzgamiento de la hipótesis H0 se de-
nomina error del tipo I a la decisión de rechazar H0 , siendo verdadera la
hipótesis; asimismo se designa como error del tipo II a la decisión de no
rechazar la hipótesis nula siendo ella falsa.
En resúmen,

DECISIÓN
H0 Rechazar H0 No rechazar H0
Cierta Error del tipo I Correcta
Falsa Correcta Error del tipo II

Definición 4.1.10. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ) y sea además τ un test no aleatorizado para
el juzgamiento de la hipótesis nula H0 : θ ∈ Θ0 definido como

τ : “Rechazar H0 si (x1 , x2 , . . . , xn ) ∈ Cτ,n ”

La función
!
1 si (x1 , x2 , . . . , xn ) = xn ∈ Cτ,n
ψτ (xn ) =
0 si xn ∈ Cτ,n c c
siendo Cτ,n = X − Cτ,n

se denomina función crı́tica del test no aleatorizado τ .


Si la hipótesis nula H0 : θ = θ0 es una hipótesis simple, es decir la aseve-
ración alude que la distribución de la variable representativa de la problación
está plenamente determinada, y si además dicha hipótesis se asume verdadera,
entonces el error del tipo I puede calcularse como



Pθ0 ψτ (Xn )=1

dicho de otra manera, calcular este error del tipo I corresponde al cálculo de
la probabildad de rechazar la hipótesis nula dado que el valor del parámetro es
θ = θ0 . Sin embargo, bajo una situación relativa a una hipótesis nula compuesta,
que se refiere a una variedad de distribuciones, el error del tipo I no serı́a único,
serı́a un conjunto de errores del tipo I. El máximo del conjunto citado, la mayor
probabilidad de rechazar la hipótesis nula siendo cierta, se adopta como uno
de los elementos constituyentes en la construcción, en la caracterización o en la
evaluación de un test. La siguiente definición hace referencia a ello.
4.1. ELEMENTOS BÁSICOS 153

Definición 4.1.11. El tamaño del test τ , el tamaño de la región crı́tica


Cτ,n , la probabilidad de error del tipo I o nivel del test τ se denota
usualmente por α y está definido como



α = max Pθ ψτ (Xn )=1
θ∈Θ0

En palabras corrientes el nivel del test se entiende como la mayor probabili-


dad de tomar una decisión incorrecta asumiendo verdadero cualquier valor del
parámetro θ asociado con la hipótesis nula, y aun cuando es un elemento que
dentro del proceso de juzgamiento de hipótesis es controlable y elegible arbi-
trariamente, por supuesto debe corresponder a una probabilidad relativamente
pequeña, es usual asumirlo como alguno de los tres niveles: α = 0.1, α = 0.05
y α = 0.01, niveles que generalmente se les conoce como niveles del 10%, 5% y
1% respectivamente.
El error del tipo II, denotado frecuentemente por β, es otro elemento cons-
titutivo del proceso de juzgamiento de la hipótesis nula, tal vez habitualmente
menos aludido que el error del tipo I, pero igualmente esencial. De manera afı́n
al cálculo del error del tipo I, se puede generar una variedad de errores del tipo
II correspondientes a cada situación particular indicativa de la falsedad de la
hipótesis nula, un poco más complejo porque la probabilidad de no rechazar
la hipótesis nula, se calcula bajo la consideración de que la hipótesis nula es
falsa. Entonces cabe preguntarse: ¿Qué significa que H0 se considere falsa?. Si
c
Θ1 = Θ0 , entonces H0 es falsa cuando H1 sea considerada cierta, en cuyo caso
el sistema de hipótesis está conformado por hipótesis antitéticas; pero cuando
c
Θ1 = Θ0 , entonces el subconjunto de valores de Θ asociados con la falsedad de
la hipótesis nula será Θ − Θ0 , conjunto que contiene a Θ1 . Este hecho pone de
manifiesto que si H0 se asume como falsa no implica necesariamente que H1 sea
verdadera, puntualización ésta que no se puede pasar por alto cuando se realiza
el cálculo del error del tipo II.
¿Cuál de los dos errores que se pueden cometer en el juzgamiento de hipótesis
estadı́sticas es el más grave?. La respuesta realmente es que en forma general
no se puede evaluar su gravedad; cada caso particular permitirá valorar las
implicaciones de una decisión errónea.
Por ejemplo, si el propósito es remplazar un medicamento existente por
uno nuevo con base en el análisis de su eficacia, podrı́a asumirse el modelo
de Bernoulli para representar si la aplicación del medicamento en un tipo de
paciente surte el efecto esperado o no, y evaluar la citada eficacia por medio de
una muestra de pacientes a los cuales se les administre el medicamento. De esta
manera si θ denota la probabilidad de que el efecto de la aplicación del nuevo
medicamento en un paciente sea el esperado y si el fármaco existente tiene una
eficacia cuantificada en θ0 , puede establecerse el siguiente sistema de hipótesis

H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
154 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

La afirmación de que el nuevo medicamento es a lo sumo tan eficaz como el


actual, traducida a lenguaje estadı́stico corresponde a la hipótesis nula en este
sistema. Con respecto a la decisión que debe tomarse, ésta se encuentra explı́cita
en el párrafo anterior: mantener el medicamento vigente o reemplazarlo por el
nuevo medicamento.
Entonces bajo esta situación particular, el error del tipo I consiste en colocar
en el mercado un medicamento con menor o igual eficacia que el actual, mientras
que el error del tipo II radica en abstenerse de colocar en el mercado un medica-
mento más eficaz que el vigente. La primera decisión implica pérdidas para el
laboratorio productor, mientras que la segunda involucra pérdida de rentabili-
dad. Con la ayuda de la información financiera de la compañı́a farmacéutica
puede establecerse cual decisión serı́a más costosa. Pero desde el punto de vista
de Salud Pública, las decisiones pueden valorarse contrariamente. ¿Es más grave
consumir un fármaco de menor calidad a no tener la posibilidad de utilizar uno
altamente eficaz?. Es obligado precisar con mayor detalle el contexto propio para
valorar las implicaciones de la decisión: ¿se trata de un medicamento contra el
resfriado común, o se trata de un medicamento para la cura de un determinado
tipo de cáncer?.
Como se deduce de lo anterior, no se puede hablar en términos absolutos cuál
de los errores es más oneroso, mientras que para una situación especı́fica sı́ existe
mayor factibilidad de hacerlo. En caso de poder establecer la preponderancia
de uno de los dos errores, algunos autores sugieren que se establezca el sistema
de hipótesis orientado por la convención de que el error del tipo I es más serio
que el error del tipo II. De esta manera se controla el error del tipo I, o lo que
es equivalente se regula el nivel del test, y el cálculo o la determinación del error
del tipo II estarı́a sujeto a esta elección de α. Sin embargo, esta sugerencia es
más una invitación a valorar la magnitud de los potenciales errores en un caso
determinado y no debe tenerse como principio inquebrantable.
Ejemplo 4.1.3. Retomando el ejemplo 4.1.2 y estableciendo el valor de la
desviación estándar como 0.75 fl oz, tanto la probabilidad de error del tipo
I como la probabilidad de error del tipo II, utilizando cada uno de los siguientes
tests, pueden ser calculadas y comparadas para varios valores de θ.

τ1 : “Rechazar H0 si x49 > 20.27, en caso contrario no rechazarla”

τ2 : “Rechazar H0 si x49 > 20.24, en caso contrario no rechazarla”

τ3 : “Rechazar H0 si x49 > 20.21, en caso contrario no rechazarla”

El nivel del primer test es α = 0.00587 porque


 

√ (20.27 − 20)
P20 X 49 > 20.27 = 1 − Φ 49 = 1 − Φ(2.52) = 0.00587
0.75
De igual manera los niveles de los test τ2 y τ3 son respectivamente del 1.255%
y 2.5%.
4.1. ELEMENTOS BÁSICOS 155

Probabilidad de error del tipo II


Test θ = 19.9 θ = 20.1 θ = 20.2 θ = 20.3 θ = 20.4 θ = 20.5 θ = 20.6
τ1 0.9997 0.9437 0.7432 0.3897 0.1125 0.0159 0.0010
τ2 0.9993 0.9043 0.6456 0.2877 0.0677 0.0076 0.0004
τ3 0.9981 0.8477 0.5372 0.2005 0.0381 0.0034 0.0001

Tabla 4.1: Tabla de compilación de probabilidades de error del tipo II, para tres test
particulares, según algunos supuestos valores de θ

Del contenido de la tabla 4.1 y de los niveles de los tests en consideración,


se deduce la superioridad del tercer test. Si se pretende elegir un test con nivel
inferior al 5%, los tests en comparación cumplen la exigencia y aunque con mayor
error del tipo I, el tercer test presenta persistentemente los menores valores de
la probabilidad de error del tipo II dentro del rango de valores de θ señalados
en la tabla mencionada.

Los temas de próximas secciones están justamente relacionados con la cons-


trucción de los mejores tests, construcción basada en métodos con alcances
mucho más generales que lo logrado en el ejemplo inmediatamente anterior.
El buen uso de la Estadı́stica además de ser realizado bajo principios éticos,
consiste en la elección y aplicación de los mejores procedimientos disponibles
para el logro de los objetivos en una situación particular. La incertidumbre
con la cual trabaja tanto el investigador, el analista estadı́stico como el usuario
ocasional de la estadı́stica, no justifica la utilización de cualquier herramienta
para abordar la explicación, descripción de un fenómeno o para la toma de
decisiones frente a él. Es preciso acudir a los cánones estadı́sticos para evaluar
la condición de cada procedimiento elegible para ser utilizado.
Cada uno de los procedimientos de la Inferencia estadı́stica está recomendado
por medio de una certificación relativa a su propósito. Los buenos estimadores
son elegibles a la luz de los requisitos tratados en el segundo capı́tulo, las mejores
estimaciones por intervalo se logran a través de intervalos confidenciales cons-
truidos con base en buenos estimadores puntuales pero escencialmente por su
mı́nima longitud. La calidad de un test por su parte, al configurarse como
la estrategia fundamental para la toma de decisiones estadı́sticas, es examinada
desde varios puntos de vista pero connaturalmente desde su capacidad de rechaz-
ar la hipótesis nula bajo presuntos escenarios relativos a valores del parámetro,
perspectiva conocida como la potencia de un test. Siendo ésta la directriz de
la construcción y evaluación del desempeño de un test, se tratará a partir de la
siguiente definición inicial conocida como función de potencia.
Definición 4.1.12. Sea τ un test no aleatorizado para el juzgamiento de H0
con función crı́tica ψτ (xn ). La función de potencia denotada como πτ (θ) es
una función con dominio Θ y recorrido el intervalo (0, 1), definida como



πτ (θ) = Pθ ψτ (Xn )=1
156 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

c
Definición 4.1.13. Siendo Θ1 = Θ0 la función βτ (θ) = 1 − πτ (θ), es llamada
curva caracterı́stica de operación o curva CO del test τ .
Ejemplo 4.1.4. El tiempo que una persona requiere para comprar una tarjeta
de ingreso al sistema de Transmilenio en la estación de Alcalá durante el año
2002, ha mostrado un comportamiento que sugiere el modelo Uniforme en el
intervalo (0, θ) para su descripción. Se afirma que el tiempo máximo de per-
manencia en la fila está entre dos y tres minutos. Para evaluar la afirmación y
tomar los correctivos del caso, se va a registrar el tiempo empleado por n per-
sonas que serán elegidas por medio de un procedimiento especial de muestreo
en la rampa de ingreso, y se propone la utilización del test

τ : “Rechazar H0 si yn ≤ 1.9 o si yn > 2.9”

para el juzgamiento de la hipótesis nula H0 en el sistema

H0 : θ ∈ [2, 3]
f rente a
H1 : θ ∈
/ [2, 3]

La función de potencia del test propuesto es

πτ (θ) = Pθ [Yn ≤ 1.9] + Pθ [Yn > 2.9]


= Pθ [Yn ≤ 1.9] + 1 − Pθ [Yn ≤ 2.9]
= 1 + FYn (1.9, θ) − FYn (2.9, θ)

 n   n  n 
1.9 1.9 2.9
πτ (θ) = I(0,1.9] (θ) + I(1.9,2.9] (θ) + 1 + − I(2.9,∞) (θ)
θ θ θ

cuya representación gráfica se observa en la figura 4.1.


Idealmente, la función de potencia de un test τ serı́a πτ (θ) = 1 − IΘ (θ) o
0
equivalentemente la curva CO ideal del test τ se establecerı́a como
βτ (θ) = 1 − IΘ (θ).
1
La función de potencia ideal para el ejemplo anterior tendrı́a la forma que
muestra la figura 4.2
Definición 4.1.14. El test τ con función crı́tica ψτ (xn ) se dice que es un test
insesgado para la hipótesis H0 si





max Pθ ψτ (Xn ) = 1 ≤ min Pθ ψτ (Xn )=1
θ∈Θ0 θ∈Θ1

o dicho en otra forma si

max πτ (θ) ≤ min πτ (θ)


θ∈Θ0 θ∈Θ1
4.1. ELEMENTOS BÁSICOS 157

πτ (θ)
1

| | | | |

1 2 3 4 5 θ

Figura 4.1: Gráfico de la función de potencia del correspondiente al ejemplo


4.1.4

πτ (θ)

1.9 2.9 θ

Figura 4.2: Gráfico de la función de potencia ideal correspondiente al ejemplo


4.1.4

El tamaño de la muestra reveló sus efectos en la estimación de parámetros y


ahora nuevamente se manifiesta como un elemento trascendental en la toma de
decisiones basadas en información estadı́stica. Como se señaló en el Capı́tulo
2, la calidad y la cantidad de información con la cual se cuenta para llevar a
cabo procesos de Inferencia estadı́stica, son dos ejes esenciales sobre los cuales
se sustentan los alcances de los procesos. Es evidente que el contar con una can-
tidad suficiente de información de excelente calidad, permite tomar decisiones
acertadas sin mayores riesgos. El concepto de la consistencia de un test, pre-
sentado a través de la siguiente definición, es la formalización y compendio de
esta evidencia.

Definición 4.1.15. Siendo τn un test de nivel α, n = 1, 2, . . . , para H0 : θ ∈ Θ0


c
frente a H1 : θ ∈ Θ1 = Θ0 , basado en una muestra aleatoria X1 , X2 , . . . , Xn ,
de una población con función de densidad fX (x, θ), dicho test recibe la denom-
158 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

inación de test consistente para H0 , si para cada θ ∈ Θ1 ,

lim Pθ [ψτn (Xn = 1)] = 1


n→∞

4.2 Tests más potentes


La función de potencia, además de describir perfectamente el comportamiento
de un test ante cualquier valor del parámetro, como ya se mencionó es la directriz
de la construcción de tests. Esa construcción o evaluación, fija la atención sobre
el valor o valores particulares de la función de potencia para uno o varios valores
especı́ficos del parámetro, en especial para valores del parámetro asociados con
la hipótesis alterna. Como precisión semántica el término potencia del test se
deja exclusivamente para referirse al valor de la función de potencia para un
elemento particular del espacio del parámetro, ası́ varios autores se refieran a
ella como la probabilidad de rechazar H0 siendo H1 verdadera. En ese sentido
la siguiente sección inicia lo pertinente a la idea de test más potente.

Definición 4.2.1. Si dentro del proceso de juzgamiento de la hipótesis nula


H0 , se considera a H0 y H1 como hipótesis simples, conformando el sistema de
hipótesis

H0 : θ = θ 0
f rente a
H1 : θ = θ 1

el test τ ∗ con nivel α se dice que es más potente para H0 que cualquier otro
test τ para H0 si

1. πτ ∗ (θ0 ) = α Θ0 = {θ0 }, Θ1 = {θ1 }

2. πτ ∗ (θ1 ) ≥ πτ (θ1 )

Teniendo en cuenta un sistema de hipótesis como en el precisado en la defini-


ción 4.2.1, de inmediato se advierte que 1 − πτ (θ1 ) es la probabilidad de ocu-
rrencia del error del tipo II al utilizar el test τ . En estas condiciones, bajo un
sistema de hipótesis simples, un test más potente de tamaño α es aquel que
induce menor β, tal como lo logra el resaltado test τ ∗ , de la aludida definición.
Con el propósito de minimizar el error del tipo II, manteniendo el control
del error del tipo I viene a cooperar el Teorema de Neyman y Pearson, que a
continuación se presenta, teorema que permite deducir una forma de obtención
de tests más potentes, es decir revela un procedimiento para la construcción de
tests con menores errores del tipo II. Para aprestar su enunciado es menester
contar con la siguiente definición.

Definición 4.2.2. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ). Si el sistema de hipótesis de juzgamiento de
4.2. TESTS MÁS POTENTES 159

la hipótesis nula H0 es un sistema de hipótesis simples


H0 : θ = θ 0
f rente a
H1 : θ = θ 1
un test definido como
τ : “Rechazar H0 si λn < k”
recibe la denominación de test de razón simple de verosimilitudes siendo
)
n
fX (xi , θ0 )
L(θ0 ; x1 , x2 , . . . , xn )
λn = = i=1
)
n
L(θ1 ; x1 , x2 , . . . , xn )
fX (xi , θ1 )
i=1

Teorema 4.2.1 (Lema de Neyman Pearson). Sea X1 , X2 , . . . , Xn una


muestra aleatoria de una población con función de densidad fX (x, θ). Si el
sistema de hipótesis es
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
el test τ cuya función crı́tica corresponde a
⎧ n n



⎪ 1 si k f (x , θ ) > fX (xi , θ0 ) esto es, si k > λn
⎨ X i 1
 i=1 i=1
ψτ (xn ) =


n n

⎪ 0 si k f (x , θ ) < fX (xi , θ0 ) es decir, si k < λn
⎩ X i 1
i=1 i=1

es un test más potente para H0 , siendo k una constante positiva y πτ (θ0 ) = α.


Ejemplo 4.2.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población
con distribución Normal de valor esperado μ y varianza conocida σ 2 , determinar
un test más potente para H0 , en el sistema
H0 : μ = μ0
f rente a
H1 : μ = μ1
Conviniendo que μ1 > μ0 ,
n 
) 1 xi −μ0 2 
√ 1 e− 2 ( σ )
2πσ
λn = i=1
n 
) xi −μ1 2 
1
√ 1 e− 2 ( σ )
2πσ
i=1
n
1 n 2 2
σ2
(μ0 −μ1 ) xi − 2σ 2 (μ0 −μ1 )
=e i=1
160 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

El test de razón simple de verosimilitudes para H0 dentro del sistema establecido


puede formularse como
n
1 n 2 2
2 (μ0 −μ1 ) xi − 2σ 2 (μ0 −μ1 )
τ : “Rechazar H0 si e σ i=1 < k”

test que es equivalente a

1 n
n
τ : “Rechazar H0 si (μ0 − μ1 ) xi − 2 (μ20 − μ21 ) < ln k”
σ2 i=1

simplificadamente equivalente al test conseguido a partir de operaciones conve-


nientes

n
τ : “Rechazar H0 si xi > c”
i=1

La idea de la razón simple de verosimilitudes da pie para presuponer que ese


concepto puede originar un concepto más general que abarque aquellas situa-
ciones en las cuales el sistema de hipótesis incluya al menos una hipótesis com-
puesta. En efecto, la razón generalizada de verosimilitudes, hace referencia a
un sistema de hipótesis como el mencionado pero con la especificidad de es-
tar constituido por hipótesis antitéticas. La siguiente definición formaliza dicho
concepto.
Definición 4.2.3. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x, θ). Si el sistema de hipótesis en el juzgamiento
de la hipótesis nula es

H0 : θ ∈ Θ 0
f rente a
H1 : θ ∈ Θ 1

con Θ1 = Θ − Θ0 , la razón generalizada de verosimilitudes corresponde al


cociente
sup L(θ; x1 , x2 , . . . , xn )
θ∈Θ0
λn = = λ(x1 , x2 , . . . , xn )
sup L(θ; x1 , x2 , . . . , xn )
θ∈Θ

Acerca de λn objeto de la definción 4.2.3 es conveniente puntualizar lo si-


guiente
1. λn es un valor particular de la variable aleatoria

Λn = λ(X1 , X2 , . . . , Xn )

2. λn ∈ (0, 1]
4.2. TESTS MÁS POTENTES 161

3. El denominador de Λn es la función de verosimilitud evaluada en el esti-


mador máximo verosı́mil de θ
El conocimiento de la distribución de Λn permite consecuentemente la formu-
lación definitiva del test, pero esto no siempre sucede, y es por ello que en
muchas oportunidades es necesario recurrir a tests equivalentes derivados del
comportamiento de Λn . Sin embargo algunas veces la exploración de la citada
distribución no es factible, pero se puede contar con un tamaño de muestra
relativamente grande. Bajo ciertas condiciones la variable aleatoria −2 ln(Λn )
puede manejarse como una variable aleatoria con distribución Ji-cuadrado, co-
mo lo indica el siguiente teorema, y de esta manera se puede establecer una
forma especial del test.
Teorema 4.2.2. Bajo condiciones de regularidad, dentro del juzgamiento de la
hipótesis nula, siendo L(θ1 , θ2 , . . . , θl , u1 , u2 , . . . , uN ) la función de verosimili-
tud de las variables aleatorias U1 , U2 , . . . , UN y l0 el número de componentes
especificadas por la hipótesis nula, entonces la variable aleatoria −2 ln(ΛN ),
converge en distribución a una variable aleatoria con distribución Ji-cuadrado
con v grados de libertad, v = l − l0 .
Bajo estas condiciones un test de razón generalizada de verosimilitudes puede
presentarse en una forma especial correspondiente a

τ : “Rechazar H0 si − 2 ln(λN ) > χ21−α (v)”

Ejemplo 4.2.2. El juzgamiento de la homoscedasticidad ha inducido el desa-


rrollo de varios tests. Este ejemplo, como forma especial de juzgarla, es una
ilustración del teorema 4.2.2.
Se consideran k poblaciones independientes asumiendo para cada una de ellas el
modelo Gaussiano, de tal manera que la variable que representa a la población
j tiene valor esperado μj y desviación estándar σj , j = 1, 2, . . . , k. Bajo estas
consideraciones, Xj1 , Xj2 , . . . , Xjnj , representa la muestra aleatoria de tamaño
nj , correspondiente a la población j.
La homoscedasticidad entendida como la caracterı́stica de que un grupo de
poblaciones tienen la misma dispersión, expresada en términos de sus varianzas,
se puede traducir en la hipótesis nula que forma parte del siguiente sistema

H0 : σ12 = σ22 = . . . = σk2


f rente a
H1 : no todas las varianzas son iguales

La función de verosimilitud

L = L μ1 , μ2 , . . . , μk , σ12 , σ22 , ..., σk2 ; x11 , x12 , . . . , x1n1 , . . . , xk1 , xk2 , . . . , xknk

de las N variables aleatorias X11 , X12 , . . . , X1,n1 , . . . , Xk1 , Xk2 , . . . , Xknk , in-
n
cluye l = 2k componentes, donde N = nj ; por otra parte denotando por σ 2
j=1
162 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

el valor común desconocido de las varianzas de cada población,


6 7
Θ0 = (μ1 , μ2 , . . . , μk , σ 2 )|μj ∈ R, σ 2 > 0

determinado por la hipótesis nula, incluye l0 = (k + 1) componentes, especifi-


cadas por ésta.
Ası́ entonces
k nj
  2 
1 1 xji − μj
L= √ exp −
j=1 i=1
2πσj 2 σj

sup L
Θ0
La determinación de λN = requiere de los siguientes elementos:
sup L
Θ


nj
• La estimación máximo-verosı́mil de μj es 1
nj xji = xj
i=1


nj
• La estimación máximo-verosı́mil de σj2 es 1
nj (xji − xj )2
i=1

• La estimación máximo-verosı́mil del valor común σ 2 bajo la hipótesis nula



k nj
es N1 (xji − xj )2
j=1 i=1

con lo anterior
  n2j
)
k 
nj
sup L 1
nj (xji − xj )2
Θ0 j=1 i=1
λN = = ⎡ ⎤ N2
sup L k nj
(xji −xj )2
Θ
⎢ j=1 i=1 ⎥
⎣ k ⎦
nj
j=1

pero la determinación de la distribución de ΛN es una tarea muy intrincada.


Por ello si se cuenta con muestras relativamente grandes, −2 ln(ΛN ) converge en
distribución a una variable aleatoria con distribución Ji-cuadrado con v grados
de libertad, v = l − l0 = 2k − (k + 1) = (k − 1), por lo tanto se le puede tratar
como tal y por consiguiente el test puede enunciarse como
  n2j
)
k 
nj
1
nj (xji − xj )2
j=1 i=1
τ : “Rechazar H0 si − 2 ln ⎡ ⎤ N2 > χ21−α (k − 1)”
k nj
(x −xj )2
⎢ j=1 i=1 ji ⎥
⎣ N ⎦
4.2. TESTS MÁS POTENTES 163

Definición 4.2.4. Conforme a la definición 4.2.3, un test τ cuya función crı́tica


corresponde a:
⎧ n n



⎪ 1 si k f (x , θ ) > fX (xi , θ0 ) esto es, si k > λn
⎨ X i 1
 i=1 i=1
ψτ (xn ) =


n n
⎪ 0 si k
⎪ f (x , θ ) < fX (xi , θ0 ) es decir, si k < λn
⎩ X i 1
i=1 i=1

recibe la denominación de test de razón generalizada de verosimilitudes


de nivel α, siendo k una constante positiva y max Pθ [ψτ (Xn ) = 1] = α.
θ∈Θ0

La sigla LRT (likelihood ratio test) es utilizada frecuentemente como


abreviatura para referirse a un test de razón de verosimilitudes, denominación
ésta que cubre tanto a los tests de razón simple de verosimilitudes como a los
tests de razón generalizada de verosimilitudes.
Ejemplo 4.2.3. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población
con función de densidad fX (x, θ) definida como
fX (x, θ) = θe−θx I(0,∞) (x)
determinar un test de razón generalizada de verosimilitudes para el juzgamiento
de H0 en el sistema
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0

n
−θ xi
como L(θ; x1 , x2 , . . . , xn ) = θn e i=1 y además
 n
1
sup L(θ; x1 , x2 , . . . , xn ) = e−n
θ∈Θ xn

y con el apoyo de la figura 4.3


⎧  n

⎪ 1 1
⎨ e−n cuando ≤ θ0
sup L(θ; x1 , x2 , . . . , xn ) = x n x n

⎪ 1
0<θ<θ0
⎩ θ0n e−θ0 nxn cuando > θ0
xn

luego

⎪ 1

⎪ 1 cuando ≤ θ0
⎨ xn
λn = θ0n e−θ0 nxn 1

⎪  n cuando > θ0

⎩ 1 xn
xn e−n
164 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

L(θ)

θ0 x1n θ

L(θ)

1
xn θ0 θ

Figura 4.3: Determinación del supremum para θ < θ0 , según la localización de


θ0 , correspondiente al ejemplo 4.2.3

por lo tanto el test de razón generalizada de verosimilitudes se puede enunciar


como

1 θn e−θ0 nxn
τ : “Rechazar H0 si > θ0 y  0  n < k”
xn 1
e−n
xn

o equivalentemente

τ : “Rechazar H0 si xn θ0 < 1 y (θ0 xn )n e−n(θ0 xn −1) < k”

Reemplazando θ0 xn = y, nótese que y n e−n(y−1) tiene máximo cuando y = 1 y


dado que y < 1, y n e−n(y−1) < k si y sólo si y ≤ k0 , como se deriva de la figura
4.4
En consecuencia, el test puede enunciarse como

τ : “Rechazar H0 si θ0 xn ≤ k0 ”
4.2. TESTS MÁS POTENTES 165

y n e−n(y−1)

1
k

k0 1 y

Figura 4.4: Representación gráfica de la equivalencia del test de razón general-


izada de verosimilitudes con el test final del ejemplo 4.2.3

El nivel de test puede determinarse ahora, de la siguiente manera.




α = Pθ0 θ0 X n ≤ k0

n
= Pθ0 θ0 Xi ≤ nk0
i=1
 nk0
1 n−1 −t
= t e dt
0 Γ(n)

n
porque θ0 Xi ∼ Gama(n, 1). A partir de este punto es posible redefinir el
i=1
test, pues de la última igualdad se obtiene el valor de k0 , siendo por supuesto
nk0 el correspondiente percentil α.

Definición 4.2.5. Si dentro del proceso de juzgamiento de la hipótesis nula H0


se considera el sistema de hipótesis

H0 : θ ∈ Θ0
f rente a
H1 : θ ∈ Θ1

el test τ ∗ se denomina test uniformemente más potente, UMP, para H0


con nivel α si

1. sup πτ ∗ (θ) = α
θ∈Θ0

2. πτ ∗ (θ) ≥ πτ (θ) para todo θ ∈ Θ1 y para todo test τ con nivel menor o
igual a α.
166 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

Ejemplo 4.2.4. Determinar un UMP para H0 en el sistema de hipótesis

H0 : θ = θ 0
f rente a
H1 : θ > θ 0

basado en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función


de densidad

fX (x, θ) = θe−θx I(0,∞) (x)

En el sistema de hipótesis

H0 : θ = θ 0
f rente a
H1 : θ = θ 1

y conviniendo que θ1 > θ0 , un test más potente para H0 puede obtenerse a


partir del Lema de Neyman Pearson (teorema 4.2.1, página 159). Siendo
n
−θ0 xi
θ0n e i=1
λn = n
−θ1 xi
θ1n e i=1

el test más potente para H0 en este último sistema está formulado como
 n n
θ0 −(θ0 −θ1 ) xi
τ : “Rechazar H0 si e i=1 < k”
θ1

o equivalentemente


n  n 
1 θ1
τ : “Rechazar H0 si xi < ln k ”
i=1
θ1 − θ0 θ0

o de manera más simple, como


n
τ : “Rechazar H0 si xi < c”
i=1

Este test es más potente para H0 bajo cualquier elección de θ1 > θ0 , de tal
manera que el test


n
τ : “Rechazar H0 si xi < c”
i=1
4.2. TESTS MÁS POTENTES 167

es UMP para H0 en el sistema

H0 : θ = θ 0
f rente a
H1 : θ > θ 0

y finalmente para un nivel preestablecido del test, la constante c puede deter-


minarse de la siguiente forma.
n

α = Pθ0 Xi < c
i=1
 c
1 n n−1 −θ0 t
= θ t e dt
0 Γ(n) 0

c es entonces el percentil α de una Gama(n, θ0 ).


Definición 4.2.6. Una familia de densidades {fX (x, θ)}, θ ∈ Θ ⊆ R se dice
que tiene razón monótona de verosimilitudes , MLR, en la estadı́stica
T = t(X1 , X2 , . . . , Xn ) si para dicha estadı́stica, el cociente

L(θ1 ; x1 , x2 , . . . , xn )
L(θ2 ; x1 , x2 , . . . , xn )

es una función no creciente de t(x1 , x2 , . . . , xn ) para cada θ1 < θ2 o no decre-


ciente de t(x1 , x2 , . . . , xn ) para cada θ1 < θ2 .
Ejemplo 4.2.5. La familia de densidades de Poisson tiene razón monótona de

n
verosimilitudes en Xi . En efecto,
i=1

  n
xi
L(θ1 ; x1 , x2 , . . . , xn ) θ1
e−n(θ1 −θ2 )
i=1
=
L(θ2 ; x1 , x2 , . . . , xn ) θ2

n
la cual es una función no decreciente de xi .
i=1

Teorema 4.2.3. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ), θ ∈ Θ ⊆ R y la familia {fX (x, θ)} tiene MLR
en la estadı́stica T = t(X1 , X2 , . . . , Xn ).
1. Si la razón monótona de verosimilitudes es no decreciente y si tα es tal
que

Pθ0 [t(X1 , X2 , . . . , Xn ) < tα ] = α

entonces el test

τ : “Rechazar H0 si t(x1 , x2 , . . . , xn ) < tα ”


168 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

es UMP para H0 , en el sistema


H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0

2. Si la razón monótona de verosimilitudes es no creciente y si t1−α es tal


que
Pθ0 [t(X1 , X2 , . . . , Xn ) > t1−α ] = α
entonces el test
τ : “Rechazar H0 si t(x1 , x2 , . . . , xn ) > t1−α ”
es UMP para H0 , en el sistema
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0

Teorema 4.2.4. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con función de densidad fX (x, θ), θ ∈ Θ ⊆ R, y fX (x, θ) perteneciente a la
familia exponencial unidimensional de densidades. Siendo la estadı́stica natural

n
de la familia exponencial unidimensional Tn = t(X1 , X2 , . . . , Xn ) = d(Xi ),
i=1
si c(θ) es una función estrictamente monótona, entonces la familia de densi-
dades {fX (x, θ)} tiene MLR en la estadı́stica Tn .
Teorema 4.2.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad fX (x, θ), θ ∈ Θ ⊆ R y fX (x, θ) pertenece a la familia
exponencial unidimensional de densidades. Siendo la estadı́stica natural de la

n
familia Tn = t(X1 , X2 , . . . , Xn ) = d(Xi ) entonces
i=1

1. Si c(θ) es una función monótona creciente de θ y t1−α tal que


n

Pθ0 d(Xi ) > t1−α = α
i=1

el test

n
τ : “Rechazar H0 si d(xi ) > t1−α ”
i=1

es UMP para H0 en el sistema


H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
4.2. TESTS MÁS POTENTES 169

o en el sistema

H0 : θ = θ 0
f rente a
H1 : θ > θ 0

2. Si c(θ) es una función monótona decreciente de θ y tα tal que


n

Pθ0 d(Xi ) < tα = α
i=1

el test

n
τ : “Rechazar H0 si d(xi ) < tα ”
i=1

es UMP para H0 en el sistema

H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0

o en el sistema

H0 : θ = θ 0
f rente a
H1 : θ > θ 0

Antes de continuar en la siguiente sección dedicada al estudio de algunos


tests bajo normalidad, es necesario concluir la presentación de los conceptos
básicos del juzgamiento de hipótesis con una mención del denominado Valor p.
Para hacer expedito un test, su forma final debe ser preferentemente muy
sencilla. En lo posible debe conocerse la distribución de la estadı́stica que lo
soporta y debe ser factible el cálculo de sus percentiles, precisamente para que
la utilización del test sea fácil.
Igualmente esa forma final, como la de muchos tests, debe estar en la forma
estándar consistente en la comparación de un valor de una estadı́stica con un
percentil de la misma elegido conforme al nivel del test asumido, para conservar
estable un modo común muy difundido y generalmente aceptado.
Muchos test han sido construidos teniendo en cuenta estas sugerencias y la
realización de los cálculos respectivos y la determinación de los percentiles se
logran mediante la utilización de alguno de los múltiples programas de cómputo
estadı́stico que se encuentran en el mercado de software o a disposición en In-
ternet.
Justamente esos programas han incorporado dentro de sus cálculos y por
ende dentro de la presentación de los resultados el denominado valor p. Este
170 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

valor puede entenderse como una ayuda muy eficiente en la lectura de los re-
sultados para el juzgamiento de una hipótesis, proque su valor condensa los
elementos del test y hace más diligente la decisión.
Tratando al valor particular de la estadı́stica explı́cito en el test como un
percentil de la misma, la forma estándar que compara el valor de la estadı́stica
con algunos de sus percentiles, es decir, que compara valores de una variable
aleatoria, puede vérsela de manera equivalente desde otro ángulo, la de comparar
probabilidades: la probabilidad asociada al valor particular de la estadı́stica
tratado como un percentil y la probabilidad que representa el valor α.
Ası́ entonces, un test de nivel α puede transformarse a una manera equiva-
lente utilizando el recurso del valor p, de la siguiente manera,

τ : “Rechazar H0 si el valor p es inferior a α”

Esta probabilidad asociada al valor particular de la estadı́stica, el valor p, co-


rresponde a una función de la probabilidad de que la variable aleatoria que
soporta el test sea menor que el valor especı́fico obtenido de la información de
la muestra particular. Un par de ejemplos ilustran mejor la idea del valor p.
Ejemplo 4.2.6. El test obtenido en el ejemplo 4.2.4 puede modificarse final-
mente como a continuación se indica y de allı́ originar el valor p correspondiente.
n
Debido a que bajo la hipótesis nula Xi ∼ Gama(n, θ0 ), entonces la variable
i=1

n
que soporta el test Wc = 2θ0 Xi tiene distribución Ji-cuadrado con 2n grados
i=1
de libertad. Con estos elementos el test presenta su forma final

τ : “Rechazar H0 si wc < χ2α (2n)”

El valor p en este caso es


 wc  n
1 1 1
p = P [Wc < wc ] = xn−1 e− 2 x dx
0 Γ(n) 2

Por supuesto si wc < χ2α (2n) implica que p < α y como consecuencia el test
puede expresarse equivalentemente como:

τ : “Rechazar H0 si p < α”

Ejemplo 4.2.7. La muestra de 49 envases que señala el ejemplo 4.1.1, también


puede utilizarse para respaldar el control de las disconformidades en la fase de
rotulación del envase, puesto que las normas internas de aseguramiento de la
calidad admiten a lo sumo el 1% como fracción disconforme en la fase de rotu-
lación y exigen que el test escogido debe tener nivel inferior a 5%.
Acudiendo al modelo de Bernoulli, conviniendo que el término éxito corresponde
a la representación de un envase que revela alguna disconformidad en su rótulo
(colocación incorrecta, rotura, decoloración o inexistencia) y denotando la pro-
babilidad de éxito como π (fracción disconforme), el seguimiento estadı́stico
4.2. TESTS MÁS POTENTES 171

wc P [Wc > wc ]
0 0.3888827605
1 0.0864105914
2 0.0130840050
3 0.0014801344
4 0.0001322100

Tabla 4.2: Algunos valores p en el juzgamiento sobre la fracción disconforme

de la fase de rotulación del proceso puede estar encauzado por el sistema de


hipótesis:

H0 : π ≤ 0.01
f rente a
H1 : π > 0.01

Como la familia de densidadesnde Bernoulli tiene razón monótona de verosimili-



tudes en la estadı́stica Wc = Xi (variable que registra el número de envases
i=1
en la muestra rotulados no apropiadamente), y además la razón es no decreciente

n
en xi , entonces un test UMP para H0 en el sistema planteado es
i=1

τ : “Rechazar H0 si wc > k”

49
Teniendo en cuenta que bajo la hipótesis nula Xi ∼ Bin(49, 0.01) y que un
i=1
test con nivel del 5% no es posible conseguirse, la tabla 4.2 nos permite dos
finalidades: la especificación de α, siguiendo la recomendación de las normas
internas, y la enumeración de algunos valores p.
El valor p en este caso corresponde a p = 1 − P [Wc ≤ wc ] y del contenido de
la tabla anterior se deduce que α = 0.013084, porque 0.086410 no es admisible
por las normas. Finalmente el test correspondiente formulado especı́ficamente
para tomar decisiones en la fase de rotulación,


49
τ : “Rechazar H0 si xi > 2”
i=1

es equivalente a:

τ : “Rechazar H0 si p < 0.013084”

Por lo tanto si el monitor de un computador muestra el valor p = 0.08641059


significa que en la muestra se encontraron 2 envases disconformes y por lo tanto
172 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

no se toma correctivo alguno. Mientras que si p = 0.00013221 significa que en


la muestra se encontraron 5 envases rotulados no apropiadamente y por lo tanto
la decisión consiste en evaluar las posibles causas atribuibles a la perturbación
y de tomar los correctivos a que haya lugar.

4.3 Juzgamiento de hipótesis sobre promedios,


bajo Normalidad
Utilizar el modelo Gaussiano como asistente en la toma de decisiones es una
práctica común no siempre realizada empleando las mejores premisas. La divul-
gación acentuada que hacen los textos sobre los tests bajo Normalidad da pie
para que el lector cimiente la idea de que el juzgamiento de hipótesis se reduce
únicamente a casos particulares regidos por el modelo Gaussiano. La inclusión
de dos secciones en este capı́tulo relativas a algunos tests bajo normalidad debe
entenderse como aplicaciones muy especiales de conceptos previos en la cons-
trucción de tests bajo el modelo soberano de los modelos de probabilidad, y
que su aplicación está sujeta a los resultados favorables a la normalidad den-
tro de un proceso de juzgamiento del ajuste al modelo, tema que será tratado
posteriormente, o bajo argumentos sólidos de tamaño de muestra suficiente que
justifican su utilización. Esta sección está dedicada al desarrollo de tests para
el juzgamiento de hipótesis referentes a promedios poblacionales y la sección
siguiente trata lo pertinente al juzgamiento de hipótesis sobre varianzas, bajo
la adopción del modelo de Gauss.

4.3.1 Juzgamiento de la hipótesis nula H0 : μ = μ0


Siendo X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n con distribución Nor-
mal de valor esperado μ y varianza σ 2 , pueden fijarse tres sistemas de hipótesis
en el juzgamiento de esta hipótesis particular.

• Sistema A

H0 : μ = μ0
f rente a
H1 : μ < μ0

• Sistema B

H0 : μ = μ0
f rente a
H1 : μ > μ0
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 173

• Sistema C

H0 : μ = μ0
f rente a
H1 : μ = μ0

1. Primer Supuesto: σ 2 es una cantidad conocida.


Considerando especı́ficamente el Sistema B, fX (x, θ) puede expresarse
como:
1 1 (x−θ) 2
fX (x, θ) = √ e− 2 [ σ ]
2πσ
1 1 θ 2 1 x 2 θ 2
=√ e− 2 ( σ ) e− 2 ( σ ) e( σ )
2πσ

de esta manera se deduce que fX (x, θ) pertenece a la familia exponencial


de densidades, estableciendo las funciones,

1 1 θ 2 1 x 2 θ
a(θ) = √ e− 2 ( σ ) , b(x) = e− 2 ( σ ) , c(θ) = , d(x) = x
2πσ σ

En razón a que c(θ) es monótona creciente, considerando la estadı́stica


n
t(X1 , X2 , . . . , Xn ) = Xi
i=1

en consecuencia el test

n
τB : “Rechazar H0 si xi > k ∗ ”
i=1

es UMP para H0 en el Sistema B.




n

Pμ Xi > k =α
i=1
 
k∗
Pμ X n > =α
n
 
X n − μ0 k ∗ /n − μ0
Pμ √ > √ =α
σ/ n σ/ n
Pμ [Zc > d] = α

X n − μ0
donde Zc = √ , entonces
σ/ n

τB : “Rechazar H0 si zc > z1−α ”


174 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

α
|

Rechazar H0 0 z

Figura 4.5: Región crı́tica del test τA

De manera similar un test para H0 en el Sistema A es

τA : “Rechazar H0 si zc < zα ”

que gráficamente la figura 4.5 lo representa.


Bajo la misma suposición de que σ 2 es conocido, finalmente el juzgamiento
de H0 : μ = μ0 dentro del Sistema C,

H0 : μ = μ0
f rente a
H1 : μ = μ0

está apoyado por un test que se deduce de la forma siguiente.


⎧ n ⎫
⎪  2⎪
 n ⎪
⎨ − (x i − θ) ⎪

1
L(θ; x1 , x2 , . . . , xn ) = √ exp i=1
2πσ ⎪
⎪ 2σ 2 ⎪

⎩ ⎭

⎧ n

 n ⎨− (xi −μ0 )2 ⎬
√1 exp i=1
sup L 2πσ ⎩ 2σ2 ⎭
θ=μ0
λn = = ⎧ n

sup L  n ⎨− (xi −xn )2 ⎬
θ∈Θ √1 exp i=1
2πσ ⎩ 2σ2 ⎭
⎧ n ⎫
⎪  
n
⎪ (xi − xn )2 −
⎨ (xi − μ0 )2 ⎪


i=1 i=1
λn = exp

⎪ 2σ 2 ⎪

⎩ ⎭
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 175

Como

n 
n
(xi − μ0 )2 = {(xi − xn ) + (xn − μ0 )}2
i=1 i=1

n 
n 
n
= (xi − xn ) + 2
2
(xi − xn ) (xn − μ0 ) + n(xn − μ0 )2
i=1 i=1 i=1

n
= (xi − xn )2 + n(xn − μ0 )2
i=1

entonces
⎧ n ⎫
⎪  
n
2⎪

⎨ (xi − xn )2
− (xi − xn )2
− n(xn − μ0 ) ⎪

i=1 i=1
λn = exp

⎪ 2σ 2 ⎪

⎩ ⎭
 
n(xn − μ0 )2
= exp −
2σ 2
por lo tanto el test construido con base en la razón generalizada de vero-
similitudes está determinado como
 
n(xn − μ0 )2
τC : “Rechazar H0 si exp − < k”
2σ 2
pero
  8 
n(xn − μ0 )2  n(x − μ )2  
 n 0 
exp − <k implica que   > k0
2σ 2  2σ 2 

y consecuentemente que |zc | > k ∗ . En definitiva se establece el test como


τc : “Rechazar H0 si |zc | > z1− α2 ”
que gráficamente está representado por la figura 4.6. La función de po-
tencia de este test se puede establecer fácilmente como
 √   √ 
n(θ − μ0 ) n(θ − μ0 )
πτc (θ) = Φ −z1− α2 + + Φ −z1− α2 −
σ σ
Gráficamente esta función de potencia se presenta en la figura 4.7
2. Segundo Supuesto: σ 2 es una cantidad desconocida.
• Con referencia al Sistema C, estrictamente hablando el sistema de-
berı́a plantearse ası́
H0 : μ = μ0 , σ 2 > 0
f rente a
H1 : μ = μ0 , σ 2 > 0
176 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

1−α
α α
2 2
|

Rechazar H0 0 Rechazar H0 z

Figura 4.6: Región crı́tica del test τc

de esta manera

Θ0 = {(μ, σ 2 )|μ = μ0 , σ 2 > 0}, Θ = {(μ, σ 2 )|μ ∈ R, σ 2 > 0}

y por lo tanto

⎛ ⎛ n ⎞⎞
1 ⎜ i=1(xi −xn )2 ⎟
⎜ − ⎝ s2
⎠⎟
⎜ 1 2 n

sup L = ⎜ √  e ⎟
θ∈Θ ⎝ 2
2π sn ⎠

ns2
1 −1 s2
n
=√  e 2 n
2
2π sn
⎛ ⎞ n2
⎜ n ⎟ −n
=⎜
⎝ 
n
⎟ e 2

2π (xi − xn )2
i=1

Por otra parte

⎛ ⎞ n2
⎜ n ⎟ −n
sup L = ⎜
⎝ 
n
⎟ e 2

θ∈Θ0 2π (xi − μ0 )2
i=1

porque bajo Θ0 , la función de verosimilitud L tiene máximo cuando


4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 177

πτc (θ)
1

α
|
μ0 θ

Figura 4.7: Forma de la función de potencia del test τc para el juzgamiento de


la hipótesis nula H0 : θ = μ0 bajo el modelo Gaussiano asumiendo el supuesto
de varianza conocida


n
μ = μ0 y σ 2 = 1
n (xi − μ0 )2 . En consecuencia
i=1
⎛
n ⎞ n2
(xi − xn ) 2
⎜ i=1 ⎟
λn = ⎜
⎝ n


(xi − μ0 )2
i=1
⎛ 
n ⎞ n2
(xi − xn )2
⎜ ⎟
=⎜
⎝n
i=1

n


(xi − xn )2 + n (xi − μ0 )2
i=1 i=1
⎛ ⎞ n2
⎜ ⎟
⎜ ⎟
⎜ 1 ⎟
=⎜
⎜ n


⎜ n (xn −μ0 )2 ⎟
⎝1 + i=1
n

(xi −xn )2
i=1

ası́ entonces, el test de razón generalizada de verosimilitudes para la


hipótesis en consideración en el sistema C,

τC : “Rechazar H0 si λn < k”

puede formularse en términos de


n(xn − μ0 )2
n
(xi −xn )2
i=1
n−1
178 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

puesto que cuando esta expresión crece el valor de λn decrece.


Ahora bien, como
+ +
, , n(X n −μ0 )2 √ 
, n(X n − μ0 ) 2 , n X n − μ0
Tc = , n ,
=, n σ
= ∼ t(n − 1)
- (Xi −X n )2 - (Xi −X n )2 Sn
i=1 i=1
n−1 σ(n−1)

el test para el juzgamiento de H0 en el Sistema C queda establecido


como

τC : “Rechazar H0 si |tc | > d”

o más precisamente, cuando se especifica un valor de α, como

τC : “Rechazar H0 si |tc | > t1− α2 (n − 1)”

• En el Sistema A se tiene que

H0 : μ = μ0
f rente a
H1 : μ < μ0

de manera que el test para juzgar H0 corresponde a

τA : “Rechazar H0 si tc < tα (n − 1)”

• Para el Sistema B,

H0 : μ = μ0
f rente a
H1 : μ > μ0

el test para juzgar H0 en este sistema está dado por

τB : “Rechazar H0 si tc > t1−α (n − 1)”

La decisión que se tome mediante el test τA , puede asumirse igualmente me-


diante su correspondiente valor p, valor que puede calcularse como:

p = Φ(zc )

mientras que el valor p asociado al test τB , se obtiene mediante la probabilidad,

p = 1 − Φ(zc )

y finalmente para el caso del valor p ligado al test τc , se calcula mediante

p = 2(1 − Φ(|zc |))


4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 179

z
z1−α |zc | z1− α2

Figura 4.8: Justificación sobre el valor p asociado al test τc

La razón de este cálculo lo sugiere la figura 4.8; ante una situación en la cual el
valor particular zc fuese tal que z1−α < |zc | < z1− α2 , y admitiendo p = 1−Φ(zc ),
no se dispondrı́a de una forma alternativa de decisión equivalente al test τc ,
puesto que claramente no habrı́a evidencia estadı́stica para rechazar la hipótesis
nula por ser |zc | < z1− α2 , pero por otra parte como p < α la decisión serı́a
contraria. De esta manera la decisión que se tome mediante el test τc es idéntica
a la que se tome mediante la utilización del valor p = 2(1 − Φ(|zc |)).
Las funciones de potencia de los tests τA y τB se ilustran en las figuras 4.9
y 4.10.

πτA (θ)
1

α
|
μ0 θ

Figura 4.9: Forma de la función de potencia del test τA para el juzgamiento de


la hipótesis nula H0 : θ = μ0 bajo el modelo Gaussiano asumiendo el supuesto
de varianza conocida
180 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

πτB (θ)
1

α
|
μ0 θ

Figura 4.10: Forma de la función de potencia del test τB para el juzgamiento de


la hipótesis nula H0 : θ = μ0 bajo el modelo Gaussiano asumiendo el supuesto
de varianza conocida

4.3.2 Juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0


Sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población con
distribución Normal de valor esperado μ1 y varianza σ12 . De la misma forma, sea
Y1 , Y2 , . . . , Ym una muestra aleatoria de tamaño m, de una población Normal
de valor esperado μ2 y varianza σ22 . Siendo independientes las dos muestras, la
hipótesis nula puede juzgarse frente a tres hipótesis alternas, en los siguientes
términos

• Sistema A

H0 : μ1 − μ2 = δ0
f rente a
Ha : μ1 − μ2 < δ0

• Sistema B

H0 : μ1 − μ2 = δ0
f rente a
Ha : μ1 − μ2 > δ0

• Sistema C

H0 : μ1 − μ2 = δ0
f rente a
Ha : μ1 − μ2 = δ0
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 181

Juzgamiento de

H0 : μ = μ0

Sistema A Sistema B Sistema C


H0 : μ = μ0 H0 : μ = μ0 H0 : μ = μ0
frente a frente a frente a
H1 : μ < μ0 H1 : μ > μ0 H1 : μ = μ0

√ √
n(xn − μ0 ) No ¿El valor de σ2 se Si n(xn − μ0 )
tc = zc =
sn asume conocido? σ

Tests Tests
τA : “Rechazar H0 si τA : “Rechazar H0 si
tc < tα (n − 1)” zc < zα ”
τB : “Rechazar H0 si τB : “Rechazar H0 si
tc > t1−α (n − 1)” zc > z1−α ”
τC : “Rechazar H0 si τC : “Rechazar H0 si
|tc | > t1− α2 (n − 1)” |zc | > z1− α2 ”

Figura 4.11: Compendio 1

El propósito de expresar la diferencia de promedios poblacionales en términos


de δ0 tiene el fin de presentar de una manera más general el caso particular muy
corriente en el cual la hipótesis nula establece que δ0 = 0.
1. Primer Supuesto: σ12 , σ22 son constantes conocidas.
Considerando la variable aleatoria
(X n − Y m ) − δ0
Zc = .
σ12 σ22
n + m

es muy sencillo confirmar que se trata de una variable aleatoria con dis-
tribución Normal estándar, teniendo en cuenta que las muestras aleato-
rias son independientes; esta expresión por su condición es una variable
pivote para la construcción de un intervalo confidencial para μ1 − μ2 .
Se hace esta mención en razón a que existe cierta correspondencia en-
182 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

trela estimación
 por intervalo y el juzgamiento de hipótesis. En efecto,
(1) (2)
si Tn , Tn es un intervalo confidencial del 100(1 − α)% de confianza
para el parámetro θ, un test razonable de nivel α para el juzgamiento
de la hipótesis nula H0 : θ = θ0 ,  frente a H1 : θ = θ0 descrito como
(1) (2)
τ : “Rechazar H0 si θ0 ∈ / tn , tn ”, es un test que da origen a uno
equivalente formulado en la forma caracterı́stica. De los intevalos confi-
denciales unilaterales también se pueden deducir tests. Utilizando este
recurso, se pueden derivar los test correspondientes ası́
τA : “Rechazar H0 si zc < zα ”

τB : “Rechazar H0 si zc > z1−α ”

τC : “Rechazar H0 si |zc | > z1− α2 ”

2. Segundo Supuesto: σ12 = σ22 = σ 2 son constantes desconocidas (Ho-


moscedasticidad).
La función de verosimilitud de X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym , depende
particularmente de μ1 , μ2 y σ 2 , dado que el supuesto de homoscedastici-
dad declara que las varianzas son iguales, su expresión es entonces,
L = L(μ1 , μ2 , σ 2 ; x1 , x2 , . . . , xn , y1 , y2 , . . . , ym )
  n2 n
(xi −μ1 )2   m2 m
(yj −μ2 )2
1 − 12 i=1 σ2 1 − 12
j=1
= e e σ2
2πσ 2 2πσ 2
Al acoger esta suposición de homoscedasticidad pero desconocidos los valo-
res de las varianzas, los estimadores de μ1 , μ2 y σ 2 son res-pec-ti-va-men-te
1

X n, Y m, (n − 1)S1,n2
+ (m − 1)S2,m2
m+n
ası́ entonces,
⎡ ⎤ m+n
2

⎢ ⎥
⎢ n+m ⎥
sup L = ⎢ ⎥
n+m

⎢  ⎥ e− 2

θ∈Θ ⎣ 
n 
m ⎦
2π (xi − xn )2 + (yj − y m )2
i=1 j=1

En Θ0 , los estimadores máximo-verosı́miles de μ = μ1 = μ2 y σ 2 cuando


δ0 = 0 son
⎛ ⎞
1 ⎝ 
n m
nX n + mY m
@=
μ Xi + Yj ⎠ =
m + n i=1 j=1
m+n
⎡ ⎤
1 n m
mn
σA2 = ⎣ (Xi − X n )2 + (Yj − X m )2 + (X n − Y m )2 ⎦
m + n i=1 j=1
m + n
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 183

de esta forma el sup L corresponde a


θ∈Θ0

⎡ ⎤ m+n
2

⎢ ⎥
⎢ m+n ⎥ n+m
⎢  ⎥ e− 2
⎢ ⎥
⎣ 
n 
m ⎦
2π (xi − xn ) +
2 (yj − y m ) + m+n (xn − y m )
2 mn 2
i=1 j=1

con lo cual
⎡ ⎤− m+n
2

⎢ mn
m+n (xn − ym) 2⎥
λn+m = ⎢
⎣1 + 
n m


(xi − xn )2 + (yj − y m )2
i=1 j=1

Teniendo en cuenta que


(X n − Y m ) − δ0
• . ∼ N (0, 1)
σ n1 + m 1


n 
m
(Xi − X n )2 + (Yj − Y m )2
i=1 j=1
• ∼ χ2 (n + m − 2)
σ2
y dada la independencia de las dos variables aleatorias mencionadas,
(X n −Y m −δ0 )
√1 1
σ n +m
Tc =  n m
∼ t(m + n − 2)
(Xi −X n )2 + (Yj −Y m )2
i=1 j=1
σ2 (n+m−2)

Con este complemento, la razón generalizada de verosimilitudes se puede expre-


sar en forma más simple como

  n+m
2
1
λn+m = t2c
1+ n+m−2

A partir de ella, se pueden formular los test en la forma siguiente.


τC : “Rechazar H0 si |tc | > t1− α2 (n + m − 2)”
τA : “Rechazar H0 si tc < tα (n + m − 2)”
τB : “Rechazar H0 si tc > t1−α (n + m − 2)”
184 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

Es importante hacer notar que la expresión simplificada de Tc es

(X n − Y m ) − δ0
Tc = .
1 1
n + m Sp

donde

n 
m
(Xi − X n )2 + (Yj − Y m )2
i=1 j=1
Sp2 =
n+m−2

El supuesto de homoscedasticidad, σ12 = σ22 , puede ser sustentado me-


diante argumentos tomados de la explicación teórica del fenómeno o de
la información detallada fruto de un seguimiento permanente del mismo,
que avalen la no existencia de razones para asegurar que una población es
más variable que la otra. Cuando estos argumentos no están disponibles
o aún contando con ellos, el camino estadı́stico para la adopción de la
homocedasticidad o para descartarla es el juzgamiento de la hipótesis nula

H0 : σ12 = σ22

cuya determinación de tests para tal propósito, bajo Normalidad, será


tratada en el numeral 4.4.2.
Dentro de la construcción de tests bajo Normalidad, el no poder asumir
el supuesto de homoscedasticidad, impide simplificar en forma mayúscula
muchas etapas en la búsqueda de la distribución de una estadı́stica que
soporte el correspondiente test como no ocurre cuando se le asume; para
el juzgamiento de la diferencia de promedios poblacionales, la adopción de
la homoscedasticidad encausa la construcción del test sobre las ideas de
Gosset para obtener un test fundamentado en la distribución de Student,
en la forma como se dedujo en este punto relativo al segundo supuesto.
Esa imposibilidad de la adopción de la homoscedasticidad en el juzgamien-
to de la diferencia de promedios poblacionales, asumiendo el modelo Gaus-
siano, genera un problema importante en la Inferencia estadı́stica y por
consiguiente en la toma de decisiones en la práctica, denominado como el
Problema de Behrens-Fisher, del cual se tiene una solución exacta, basa-
da en Análisis Estadı́stico Secuencial, solución que requiere un tipo de
muestras seleccionadas en etapas, que este texto no aborda por no estar
dentro del propósito del mismo. Se presenta a continuación una solución
aproximada al problema, solución que aparece citada en muchos libros de
Estadı́stica.

3. Tercer Supuesto: σ12 = σ22 constantes desconocidas. (Problema de Behrens-


Fisher)
Dentro de las soluciones, en la actualidad se destaca la solución de Welch.
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 185

Esta solución utiliza la siguiente estadı́stica

X n − Y m − δ0
Tc = . 2 2
S1,n S2,m
n + m

Esta estadı́stica no tiene distribución t. Welch propone los test siguientes

τA : “Rechazar H0 si tc < tα (f − 1)”


τB : “Rechazar H0 si tc > t1−α (f − 1)”
τC : “Rechazar H0 si |tc | > t1− α2 (f − 1)”

donde f = min{m, n}. Estos test pueden mejorarse en potencia, escogien-


do f entre min{m, n} y (m + n − 2).
La solución de Welch en este mejoramiento de potencia escoge a f como
el entero más próximo a
 s2 s22,m
2
1,n
n + m
f= s2 2 s2 2
1,n 2,m
n m

n−1 + m−1

Como conclusión esta sección 4.3 y como generalización del numeral 4.3.2, asum-
iendo el modelo de Gauss para cada una de las k poblaciones independientes,
de tal manera que la variable que representa a la población j tiene valor esper-
ado μj y desviación estándar σ, j = 1, 2, . . . , k, y siendo Xj1 , Xj2 , . . . , Xjnj ,
la muestra aleatoria de tamaño nj correspondiente a la población j y bajo el
supuesto de homocedasticidad, el procedimiento de juzgamiento de la hipótesis
nula que forma parte del sistema

H0 : μ1 = μ2 = . . . = μk
f rente a
H1 : no todos los promedios poblacionales son iguales

se le conoce como Análisis de varianza a una vı́a, procedimiento tratado inicial-


mente por Fisher en la segunda década del siglo XX. La denominación de este
procedimiento estadı́stico como análisis de varianza, aparentemente sin vincu-
lación con el sentido de la hipótesis planteada, proviene de la expresión de la
estadı́stica que fundamenta el test correspondiente, al tratarse de una separa-
ción de componentes de una varianza, concordante con el término análisis que
significa “Distinción y separación de las partes de un todo hasta llegar a conocer
sus principios o elementos ”. 3
3 Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda Edición.

2001
186 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

Juzgamiento de

H0 : μ1 − μ2 = δ0

Sistema A Sistema B Sistema C


H0 : μ1 − μ2 = δ0 H0 : μ1 − μ2 = δ0 H0 : μ1 − μ2 = δ0
frente a frente a frente a
H1 : μ1 − μ2 < δ0 H1 : μ1 − μ2 > δ0 H1 : μ1 − μ2 = δ0

No ¿σ12 , σ22 Si
son conocidos?

n − y m ) − δ0
Si t = (x. (xn − ym ) − δ0
¿σ12 = σ22 ? c zc = .
1 1 σ12 σ22
n + m sp n + m

No

(xn − y ) − δ0
tc = . 2 m 2
s1,n s2,m
n + m

Tests Tests Tests


τA : “Rechazar H0 si τA : “Rechazar H0 si τA : “Rechazar H0 si
tc < tα (f − 1)” tc < tα (n + m − 2)” zc < zα ”
τB : “Rechazar H0 si τB : “Rechazar H0 si τB : “Rechazar H0 si
tc > t1−α (f − 1)” tc > t1−α (n + m − 2)” zc > z1−α ”
τC : “Rechazar H0 si τC : “Rechazar H0 si τC : “Rechazar H0 si
|tc | > t1− α2 (f − 1)” |tc | > t1− α2 (n + m − 2)” |zc | > z1− α2 ”

Figura 4.12: Compendio 2

La función de verosimilitud
L = L(μ1 , μ2 , . . . , μk , σ 2 ; x11 , x12 , . . . , x1n1 , . . . , xk1 , xk2 , . . . , xknk )
de las n variables aleatorias X11 , X12 , . . . , X1n1 , . . . , Xk1 , Xk2 , . . . , Xknk , siendo
σ 2 el valor común desconocido de las varianzas de cada población adoptando la
k
homocedasticidad y n = nj , es especı́ficamente
j=1

k nj   2 
1 1 xji − μj
L= √ exp −
j=1 i=1
2πσ 2 σ
⎧ ⎫
n
⎨ 1  k nj ⎬
= (2πσ 2 ) 2 exp − 2 (xji − μj )2
⎩ 2σ ⎭
j=1 i=1
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 187

con la utilización de esta función se puede establecer que



nj
• La estimación máximo-verosı́mil de μj es 1
nj xji = xj .
i=1


k 
nj
• La estimación máximo-verosı́mil de σ 2 es 1
n (xji − xj )2 .
j=1 i=1

⎡ nj
⎤− n2
k
2π (xji −xj )2  n
⎢ j=1 i=1 ⎥
de tal manera que sup L = ⎣ n ⎦ exp − .
Θ 2
Acorde con la hipótesis nula, denotando
6 por μ el valor común7 desconocido
de los promedios de cada población, Θ0 = (μ, σ 2 )|μ ∈ R, σ 2 > 0 , de donde se
pueden establecer los siguientes elementos

• La estimación máximo-verosı́mil del valor común μ bajo la hipótesis nula



nj
es n1 xji = x.
i=1

• La estimación máximo-verosı́mil de σ 2 bajo la hipótesis nula es


1  
k nj
n (xji − x)2 .
j=1 i=1

⎡ nj
⎤− n2
k
2π (xji −x)2  n
⎢ j=1 i=1 ⎥
Por lo tanto sup L = ⎣ ⎦ exp − , y en consecuencia
Θ0 2

⎡ ⎤− n2

k 
nj
sup L
⎢ (xji − x) ⎥ 2
Θ0 ⎢ j=1 i=1 ⎥
λn = = ⎢ k nj ⎥
sup L ⎣   ⎦
Θ (x ji − xj )2
j=1 i=1


k 
nj
Algebraicamente la expresión (xji −x)2 , llamada suma total de cuadrados,
j=1 i=1
puede expresarse como la adición de dos cantidades,


k 
k 
nj
nj (xj − x)2 + (xji − xj )2
j=1 j=1 i=1

conocidas estas últimas como suma de cuadrados entre grupos (en el lenguaje
del Diseño Experimental, suma de cuadrados entre tratamientos) y suma de
cuadrados de errores respectivamente. Como estas cantidades son calculadas a
partir de los valores observados de las muestras, la suma total de cuadrados es
el numerador de una varianza muestral particular, varianza que se descompone
188 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

entonces en dos partes: una varianza entre grupos o tratamientos o intervarianza


y una varianza dentro de los grupos o intravarianza.
⎡ ⎤− n2

k 
k 
nj

⎢ nj (xj − x) + (xji − xj )
2 2

⎢ j=1 j=1 i=1 ⎥
λn = ⎢ ⎥
⎣ 
k nj ⎦
(xji − xj )2
j=1 i=1

sustituyendo
k
nj (xj −x)2
j=1  − n2
k−1 k−1
nj por fc entonces λn = 1+ fc
k
(xji −xj )2
n−k
j=1 i=1
n−k

visto λn de esta manera, los valores pequeños de la razón generalizada de vero-


similitudes son causados por valores grandes de fc , y sólo resta entonces conocer
la distribución de la variable Fc porque ya se manifiesta la forma del test equiv-
alente al test original basado en λn .
En primer lugar, la independencia de las variables aleatorias


k
 2 
k 
nj
 2
nj X j − X y Xji − X j
j=1 j=1 i=1

nj 
 2
está garantizada por la independencia estadı́stica entre X j y Xji − X j .
i=1
En segundo lugar, bajo la hipótesis nula


k  2
nj X j − X
j=1
∼ χ2 (k − 1)
σ 2 (k − 1)

k 
nj  2
Xji − X j
j=1 i=1
y ∼ χ2 (n − k)
σ 2 (n − k)

por consiguiente, el cociente Fc tiene distribución F con (k − 1) y (n − k) grados


de libertad.
Para concluir, el test original

τ : “Rechazar H0 si λn < c”

puede reformularse como:

τ : “Rechazar H0 si fc > f1−α ((k − 1), (n − k))”


4.4. JUZGAMIENTO DE HIPÓTESIS SOBRE VARIANZAS, BAJO NORMALIDAD 189

4.4 Juzgamiento de hipótesis sobre varianzas,


bajo Normalidad
4.4.1 Juzgamiento de la hipótesis nula H0 : σ 2 = σ02
Bajo las condiciones establecidas en la parte 4.3.1, página 172, los tres sistemas
que pueden plantearse son
• Sistema A
H0 : σ 2 = σ02
f rente a
H1 : σ 2 < σ02

• Sistema B
H0 : σ 2 = σ02
f rente a
H1 : σ 2 > σ02

• Sistema C
H0 : σ 2 = σ02
f rente a
H1 : σ 2 = σ02

1. Primer Supuesto: μ es una constante conocida.


El juzgamiento de la hipótesis H0 bajo el Sistema B, suponiendo μ cono-
cido, puede llevarse a cabo por medio de un test derivado de lo siguiente,
con θ = σ 2 . Como
 n n
1 1
− 2θ (xi −μ)2
L(θ; x1 , x2 , . . . , xn ) = √ √ e i=1

2π θ
n n
1
− 2θ (xi −μ)2 +ln √ 1√
2π θ
=e i=1

entonces considerando c(θ) = − 2θ


1
y la pertenencia a la familia exponencial
de densidades, como c(θ) es decreciente, por lo tanto

n
τB : “Rechazar H0 si (xi − μ)2 > k”
i=1

Este test es un test UMP para H0 en el Sistema B, equivalente a



n
(xi − μ)2
i=1
τB : “Rechazar H0 si χ2c1 = > χ21−α (n)”
σ02
que gráficamente está representado por la figura 4.13
190 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

Rechazar H0 χ2 (n)

Figura 4.13: Región crı́tica del test τB

2. Segundo Supuesto: μ es una constante desconocida.


Similarmente, un test para H0 en el Sistema B, cuando μ es deconocido
es

n
(xi − xn )2
i=1
τB : “Rechazar H0 si χ2c2 = > χ21−α (n − 1)”
σ02
Para los Sistemas A y C los test son los siguientes

τA : “Rechazar H0 si χ2c1 < χ2α (n)”


τA : “Rechazar H0 si χ2c2 < χ2α (n − 1)”

según el supuesto que se adopte acerca de μ. Igualmente,

τC : “Rechazar H0 si χ2c1 < χ2 (n) o χ2c1 > χ2δ (n)”


τC : “Rechazar H0 si χ2c2 < χ2 (n − 1) o χ2c2 > χ2δ (n − 1)”

que gráficamente están representados en la figura 4.14 donde α = +(1−δ).

La escogencia de los percentiles χ2 y χ2δ es la misma que la de los percentiles


que minimizan la longitud del intervalo confidencial para σ 2 . La solución
 = α2 y δ = 1 − α2 debe evitarse para muestras pequeñas.

Nota. El teorema utilizado para la construcción del test bajo el Sistema B,


permite utilizar el mismo test para juzgar H0 en el sistema siguiente

H0 : σ 2 ≤ σ02
f rente a
H1 : σ 2 > σ02
4.4. JUZGAMIENTO DE HIPÓTESIS SOBRE VARIANZAS, BAJO NORMALIDAD 191

 δ
Rechazar H0 Rechazar H0 χ2 (v)

Figura 4.14: Región crı́tica del test τc , con v = n o v = n − 1 según sea el caso

4.4.2 Juzgamiento de homoscedasticidad


El juzgamiento de homoscedasticidad fue tratado en el ejemplo 4.2.2, página
161. Sin embargo para el caso usual referente a dos poblaciones independientes,
corresponde al juzgamiento de la hipótesis nula H0 : σ12 = σ22 . Para tal efecto,
pueden establecerse tres sistemas de hipótesis, a saber
• Sistema A

H0 : σ12 = σ22
f rente a
H1 : σ12 < σ22

• Sistema B

H0 : σ12 = σ22
f rente a
H1 : σ12 > σ22

• Sistema C

H0 : σ12 = σ22
f rente a
H1 : σ12 = σ22

Los test utilizados en el juzgamiento de H0 , en cualquiera de los tres sistemas


están basados en el valor de la estadı́stica
s21
fc =
s22
192 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

Juzgamiento de

H0 : σ 2 = σ02

Sistema A Sistema B Sistema C


H0 : σ 2 = σ02 H0 : σ 2 = σ02 H0 : σ 2 = σ02
frente a frente a frente a
H1 : σ 2 < σ02 H1 : σ 2 > σ02 H1 : σ 2 = σ02


n 
n
(xi − xn )2 No ¿El valor de μ se Si (xi − μ)2
i=1 i=1
χ2c2 = asume conocido? χ2c1 =
σ02 σ02

Tests Tests
τA : “Rechazar H0 si τA : “Rechazar H0 si
χ2c2 < χ2α (n − 1)” χ2c1 < χ2α (n)”
τB : “Rechazar H0 si τB : “Rechazar H0 si
χ2c2 > χ2α (n − 1)” χ2c1 > χ2α (n)”
τC : “Rechazar H0 si τC : “Rechazar H0 si
χ2c2 < χ2 (n − 1) o si χ2c1 < χ2 (n) o si
χ2c2 > χ2δ (n − 1)” χ2c1 > χ2δ (n)”
α =  + (1 − δ) α =  + (1 − δ)

Figura 4.15: Compendio 3

donde Fc ∼ F (n − 1, m − 1) bajo las condiciones del numeral 4.3.2, página 180.


Entonces, los respectivos tests pueden enunciarse como

τA : “Rechazar H0 si fc < fα (n − 1, m − 1)”


τB : “Rechazar H0 si fc > f1−α (n − 1, m − 1)”
τC : “Rechazar H0 si fc < f (n − 1, m − 1) o fc > fδ (n − 1, m − 1)”

Igualmente que en el caso anterior α = +(1−δ). La escogencia de los percentiles


f (n − 1, m − 1), fδ (n − 1, m − 1) que incluye el test τC , es la misma que la de los
percentiles de los intervalos confidenciales para el cociente de varianzas de dos
poblaciones independientes desarrollados en el numeral 3.4.2, página 134. Si los
tamaños de las muestras son relativamente grandes, se pueden usar  = α2 = δ.
4.5. JUZGAMIENTO DE PROPORCIONES 193

4.5 Juzgamiento de proporciones


El juzgamiento de proporciones poblacionales es un tema muy común en los
textos de Estadı́stica de todos los niveles, en razón a que muchas afirmaciones
de la cotidianidad, de la actividad industrial, del desarrollo del comercio, de
los quehaceres de la ciencia recurren a porcentajes y por lo tanto su empleo
es muy amplio. El lenguaje común y el especializado han incorporado tasas y
porcentajes con el sentido especı́fico de su campo, para proporcionar un elemento
descriptivo en la obtención de información o conocimiento sobre el tema en
cuestión y su usanza se ha ampliado porque aritméticamente es simple y su
comprensión muy generalizada.
Presentar algunas ideas en el juzgamiento de la cuantı́a de una proporción
poblacional, o porcentaje como ordinalmente se le designa, cuantı́a que gene-
ralmente no es posible determinar para una población particular, constituye el
propósito de esta sección. Se evitan algunos detalles considerados en secciones
anteriores, pues en este punto ya debe ser familiar la estructura y rutinas propias
del juzgamiento de hipótesis, pero a partir de las consideraciones que se realizan
es posible construir con los detalles necesarios los distintos test requeridos.
Para comenzar, el modelo asumido es el modelo de Bernoulli de parámetro
π. La familia de densidades de Bernoulli posee caracterı́sticas especiales, en el
sentido que los teoremas 4.2.3 y 4.2.4, páginas 167 y 168 respectivamente, legi-

n
timan a la estadı́stica Xi como la estadı́stica que fundamenta el juzgamiento
i=1
de la hipótesis nula H0 : π = π0 en el sistema,

H0 : π = π0
f rente a
H1 : π > π0


n
por medio de un test establecido como, τ : “Rechazar H0 si xi > k”.
i=1

n
Bajo la hipótesis nula Xi ∼ Bin(n, π0 ), elegido un nivel del test α, y con
i=1
el ánimo de determinar plenamente el valor de k, puede suceder que


n 
n
Pπ0 Xi ≥ k + 1 < α < Pπ0 Xi ≥ k
i=1 i=1

es decir que no se puede determinar un valor de k para el cual el nivel del test
sea exactamente α. En esta situación hay dos soluciones: modificar el valor de
α por un valor menor α , o establecer un test aleatorizado.
n 

La primera solución es adoptar el nivel α = Pπ0 Xi ≥ k + 1 . La se-
i=1
194 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

gunda solución es establecer una función crı́tica,


⎧ 
n

⎪1 si xi ≥ k + 1



⎨ i=1

n
ψ(xn ) = δ si xi = k




i=1
n

⎩0 si xi < k
i=1

la probabilidad de éxito δ de la variable auxiliar en el test aleatorizado corres-


ponde a:
n  n 
 
α − Pπ0 Xi ≥ k + 1 α − Pπ0 Xi ≥ k + 1
δ= n  i=1 n =  i=1 
  n
Pπ0 Xi ≥ k − Pπ0 Xi ≥ k + 1 Pπ0 Xi = k
i=1 i=1 i=1

de tal manera que el tamaño del test será:


n 
n α − Pπ  Xi ≥ k + 1 n
 0 
0.Pπ0 Xi < k +  i=1  Pπ0 Xi = k
n
i=1 Pπ0 Xi = k i=1
i=1
n

+ 1.Pπ0 Xi ≥ k + 1
i=1
 

n 
n
= α − Pπ0 Xi ≥ k + 1 + Pπ0 Xi ≥ k + 1 = α
i=1 i=1

Consideraciones similares pueden llevarse a cabo para el juzgamiento de la


hipótesis nula H0 : π = π0 en el sistema,

H0 : π = π0
f rente a
H1 : π < π0


n
a través de un test establecido como, τ : “Rechazar H0 si xi < k”, y para el
i=1
juzgamiento de la referida hipótesis nula en el sistema,

H0 : π = π0
f rente a
H1 : π = π0


n 
n
por intermedio de un test τ : “Rechazar H0 si xi < k1 o si xi > k2 ”.
i=1 i=1
4.5. JUZGAMIENTO DE PROPORCIONES 195

Recurriendo a otras consideraciones, estas referentes a tamaños de muestra


grandes, las cuales encaminan el desarrollo de los tests más difundidos en el
juzgamiento de un proporción poblacional, se presentan los rasgos generales de
la deducción de los tests correspondientes.
Siendo X1 , X2 , . . . , Xn , una muestra aleatoris de una población con distribu-

n
ción de Bernoulli de parámetro π, la estadı́stica Pn = n1 Xi , la proporción
i=1
1
muestral, es un MLE insesgado para π, y siendo π(1−π) la correspondiente in-
formación de Fisher,
8
n d
(Pn − π) −
→ Z ∼ N (0, 1)
π(1 − π)

con lo cual la hipótesis nula H0 : π = π0 puede juzgarse atendiendo a este


resultado, según alguno de los siguientes sistemas

• Sistema A

H0 : π = π0
f rente a
H1 : π < π0

• Sistema B

H0 : π = π0
f rente a
H1 : π > π0

• Sistema C

H0 : π = π0
f rente a
H1 : π = π0

Basados en la estadı́stica
Pn − π0
Zc = .
π0 (1−π0 )
n

los tests respectivos pueden formularse como

τA :“Rechazar H0 si zc < zα ”
τB :“Rechazar H0 si zc > z1−α ”
τC :“Rechazar H0 si |zc | < z1− α2 ”
196 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

El requisito que algunos autores subrayan en la utilización correcta de estos


tests consiste en garantizar que npn > 5 y que n(1 − pn ) > 5.
Por último cuando se desea juzgar la diferencia entre dos proporciones pobla-
cionales correspondientes a dos poblaciones, se considera una muestra aleatoria
X1 , X2 , . . . , Xn , de una población con distribución de Bernoulli de parámetro
π1 y una muestra Y1 , Y2 , . . . , Ym , de una población con distribución de Bernoulli
de parámetro π2 , siendo estas poblaciones estadı́sticamente independientes.
Particularmente si los tamaños de las muestras son relativamente grandes,
los tests para el juzgamiento de la hipótesis nula H0 : π1 − π2 = δ0 , se basan en
la estadı́stica
 
(1) (2)
Pn − Pm − δ0
ZC = 8
(1) (1) (2) (2)
Pn 1−Pn Pm 1−Pm
n + m

(1) 1 
n
(2) 1 
m
siendo Pn = n Xi y Pm = m Yj .
i=1 j=1
Si algún sistema enuncia la hipótesis nula como H0 = π1 − π2 = 0, la estadı́stica
apropiada que fundamenta el respectivo test es
(1) (2)
Pn − Pm
ZC = . 
P (1 − P ) n1 + 1
m

(1) (2)
nPn + mPm
siendo P = , entendida esta estadı́stica como un estimador del
n+m
valor común π = π1 = π2 .

4.6 Ejemplos numéricos de aplicación


Ejemplo 4.6.1. El ı́ndice de Fishman es un indicador de la madurez esquelética
de adolescentes y preadolescentes. Dentro del estudio epidemiológico de salud y
maloclusión dental realizado por la Facultad de Odontologı́a de la Universidad
Nacional de Colombia y la Caja de compensación familiar COLSUBSIDIO, en-
tre 1994 y 1996 y basado en una muestra de 4724 pacientes de su antigua clı́nica
infantil, se comparó la edad cronológica de niños y niñas con igual maduración
esquelética. Particularmente para un análisis puntual, se consideró una sub-
muestra de 64 niñas con ı́ndice igual a siete que registró un promedio de edad
de 12.6 años con una desviación estándar de 1.21 años, y paralelamente una
submuestra de 51 niños, con ı́ndice igual a siete presentó un promedio de edad
de 14.4 años con una desviación estándar de un año.
Bajo el modelo Gaussiano, que mostró ser apto para representar la edad cronoló-
gica en este nivel de maduración, ¿es razonable afirmar que el promedio de edad
en la cual los niños y las niñas alcanzan un ı́ndice de maduración esquelética de
siete, difiere según el género?.
En primer lugar, ¿es pertinente adoptar la homoscedasticidad?. Dado que
4.6. EJEMPLOS NUMÉRICOS DE APLICACIÓN 197

s2
s1 = 1.21, s2 = 1 y fc = s12 = 1.4641, el valor p dentro del juzgamiento de
2
la homoscedasticidad es 0.0811587, teniendo en cuenta que Fc ∼ F (63, 50),
valor que adoptando α = 0.05, permite descartar la homoscedasticidad como
supuesto de juzgamiento de H0 : μ1 = μ2 (el promedio de edad en la cual los
niños y las niñas alcanzan un ı́ndice de maduración de siete es el mismo) dentro
del sistema

H0 : μ1 = μ2
f rente a
H1 : μ1 = μ2

De esta manera se acude a la solución de Welch para poder contar con los
argumentos necesarios para sustentar la afirmación. Dado que
xn − y m 12.6 − 14.4
tc = . =. = −8.6928
s21,n s22,m 1.4641 1
+ 64 + 51
n m

su valor absoluto supera ampliamente al percentil 0.975 de una distribución t


con 112 grados de libertad, 1.98137059, porque
 2
s21,n s22,m  1.4641
1 2
n + m +
64 51
f= s2
2
s2
2 = 2 2 = 112.83397
1,n 2,m ( 1.4641
64 ) ( 511 )
n m
63 + 50
n−1 + m−1

En consecuencia, hay la suficiente evidencia estadı́stica para rechazar la hipótesis


H0 : μ1 = μ2 , es decir que la información contenida en la muestra respalda
cuantitativamente la afimación motivada por este análisis puntual.

Ejemplo 4.6.2. El estrés afecta de manera importantela producción de leche


en el ganado vacuno. Las causas que lo producen son de distinta naturaleza,
pero una de ellas parece ser la temperatura del ambiente, pues las reses tienden
a reducir la ingestión de alimento cuando la temperatura aumenta y por con-
siguiente se ve reducida la producción láctea. Para evaluar esta circunstancia,
se construyeron establos con cubierta de material aislante del calor para ubicar
durante un mes 47 vacas Holstein de las mismas caracterı́sticas que 38 vacas
mantenidas en los potreros, durante el mismo perı́odo, cuya protección solar
fueron los árboles y arbustos presentes en el lugar. Del acopio de información
de la producción de leche de cada una de las vacas, se tiene lo siguiente:
El promedio de producción mensual de las 47 vacas aisladas del calor fue de 597
lt con una desviación estándar de 36 lt, mientras que el promedio de producción
de leche del otro grupo de vacas fue de 360 lt con una desviación estándar de 45
lt. ¿Independientemente de la producción lechera, modelada apropiadamente de
forma Normal según el test de Lilliefors, se puede afirmar que de todas maneras
la variabilidad de la producción es prácticamente igual en las dos condiciones
de temperatura?.
198 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

Además de preguntarse si ante las condiciones de temperatura del ambiente se


modifica la producción lechera, lo cual puede analizarse de manera similar al
ejemplo anterior, el investigador centra su atención sobre la variabilidad de la
producción. La hipótesis de que el efecto de la temperatura no altera la varia-
bilidad de la producción, H0 : σ12 = σ22 , al manifestarse el sentido de aumento o
disminución de la misma, se juzga en el sistema

H0 : σ12 = σ22
f rente a
H1 : σ12 = σ22

s2 2
Entonces fc = s12 = (36)
(45)2 = 0.64. La solución corriente en la determinación de
2
los percentiles permite establecer para este caso que f0.025 (46, 37) = 0.54323124
y que f0.975 (46, 37) = 1.8880067, con lo cual

f0.025 (46, 37) < fc < f0.975 (46, 37)

y de allı́ concluir que no hay la suficiente evidencia estadı́stica para rechazar la


homoscedasticidad, con lo cual se puede asegurar que bajo las dos condiciones
de temperatura en las cuales permanecen las reses, la variabilidad no se modifica
de una manera notable.

4.7 Tamaño de la muestra


El tamaño de la muestra tiene consecuencias ostensibles en la toma de decisiones,
ası́ como las tiene en la calidad de las estimaciones. Estimar un parámetro es
una actividad que persigue fines distintos a los propios del juzgamiento de una
afirmación acerca de él, y por lo tanto la disposición de lo necesario para el logro
de los fines, estrictamente no es la misma. Son dos procesos entroncados pero
distintos en sus efectos o trascendencias. El tamaño de la muestra que se utiliza
con la finalidad de estimar parámetros no necesariamente es el tamaño apto para
el juzgamiento de hipótesis, o contrariamente, un tamaño elegido para juzgar
una hipótesis no propiamente es el tamaño adecuado para estimar el parámetro
correspondiente.
El tema del tamaño de la muestra es un tema que induce la reflexión en los
teóricos y la indagación de su magnitud en los usuarios de la Estadı́stica; corres-
ponde a un tema de gran amplitud que contiene muchas singularidades y por
supuesto no puede ser abordado por un texto que tiene otra mira. Reiterando lo
expresado en el Capı́tulo 3, sólo se presentan unas minúsculas consideraciones,
sin mayor pretensión, sobre dos tamaños de muestra simple bajo la orientación
del modelo Gaussiano.
Como el tamaño de la muestra tiene efectos directos sobre los errores del tipo
I y del tipo II, la función de potencia asiste su determinación. Usualmente se
suele asumir un valor de α deseado y a partir de él ajustar un tamaño muestral
para obtener un pretendido valor de β.
4.7. TAMAÑO DE LA MUESTRA 199

Particularmente el juzgamiento de la hipótesis nula H0 : μ = μ0 en el Sistema


A, asumiendo Normalidad y varianza conocida, requiere un tamaño de muestra
especı́fico. Bajo las consideraciones anteriores, el test correspondiente de tamaño
α, como se dedujo en la subsección 4.3.1, es

n(xn − μ0 )
τ : “Rechazar H0 si < zα ”
σ
test que puede enunciarse igualmente como
σzα
τ : “Rechazar H0 si xn < μ0 + √ ”
n

Si μ fuese igual a μ∗ (μ∗ = μ0 ), la probabilidad del error del tipo II serı́a por
consiguiente,
 
σzα
β = Pμ∗ X n ≥ μ0 + √
n
√  √

n Xn − μ n(μ0 − μ∗ )
= Pμ∗ ≥ + zα
σ σ

por lo tanto

n(μ0 − μ∗ )
+ zα = z1−β
σ
y como zα = −z1−α , entonces

n(μ0 − μ∗ )
− z1−α = z1−β
σ
de donde finalmente,
 2
σ (z1−α + z1−β )
n=
μ0 − μ∗

tamaño idéntico al requerido para el juzgamiento de la hipótesis nula


H0 : μ = μ0 en el Sistema B. La determinación de μ∗ no es del todo arbitraria,
como puede ser la de α o la de β. Concretamente la pretensión del menor
riesgo en la decisión se materializa en la adopción de probabilidades pequeñas
para los errores del tipo I y II; pero la elección de μ∗ que acompaña las re-
flexiones alrededor del error del tipo II, que correponda al valor de β deseado,
debe responder a razones de ı́ndole de sensibilidad del test. Fijar el valor de μ∗
cercano a μ0 , permaneciendo constantes los valores de la desviación estándar
y los percentiles señalados, tiene un efecto extraordinario en el tamaño de la
muestra, pues lo magnifica sobremanera. En este sentido, la respuesta a la pre-
gunta: ¿Qué tan sensible debe ser el test?, es la única vı́a que proporciona los
elementos y argumentos para la escogencia de μ∗ .
200 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

Otra situación particular la constituye el establecimiento del tamaño de


muestra adecuado para el juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0 ,
en el Sistema B. Al igual que el caso anterior se asume el modelo Gaussiano y
adicionalmente el conocimiento de las varianzas poblacionales σ12 y σ22 .
El test τB desarrollado en el numeral 4.3.2, considerando m = n puede
formularse de otra manera como
8
σ12 + σ22
τB : “Rechazar H0 si (xn − yn ) > δ0 + z1−α ”
n
Si μ1 − μ2 fuese igual a δ ∗ , la probabillidad del error del tipo II serı́a en conse-
cuencia,
8
σ12 + σ22
β = Pδ∗ X n − Y n ≤ δ0 + z1−α
n
⎡ ⎤
X n − Y n − δ∗ δ − δ ∗
= Pδ∗ ⎣ + z1−α ⎦
0
. ≤.
σ12 +σ22 σ12 +σ22
n n

con lo cual, se puede afirmar que


δ0 − δ ∗
. + z1−α = zβ , y debido a que zβ = −z1−β entonces
2
σ1 +σ22

n
δ0 − δ ∗
. + z1−α = −z1−β , luego
σ12 +σ22
n
δ ∗ − δ0
. = z1−α + z1−β , con lo cual se deduce que
2 2
σ1 +σ2
n
(σ12 + σ22 )(z1−α + z1−β )2
m=n=
(δ ∗ − δ0 )2

Cada una de las dos muestras debe entonces contar con n unidades para cumplir
cabalmente con las exigencias relacionadas con las probabilidades de los errores
en la decisión. Esta expresión es igualmente válida para el cálculo del número de
unidades estadı́sticas que deben seleccionarse en cada una de las dos poblaciones,
para el caso del juzgamiento de la hipótesis nula H0 : μ1 −μ2 = δ0 , en el Sistema
A. La sensibilidad del test, como en el caso anterior, es la determinante del valor
δ∗.

4.8 Juzgamiento secuencial


Como formas especiales de juzgamiento de hipótesis, dentro de la temática cono-
cida como Análisis Secuencial que incluye también estimación de parámetros, se
encuentran procedimientos basados en tests llamados tests secuenciales surgidos
4.8. JUZGAMIENTO SECUENCIAL 201

de la idea de Wald, denominada originalmente como tests secuenciales de razón


de probabilidad (SPRT). Estas formas especiales de juzgamiento de hipótesis,
utilizan explı́citamente tanto la probabilidad del error del tipo I como la proba-
bilidad del error del tipo II fijando de antemano sus valores, de tal manera que
el tamaño de la muestra no está predeterminado sino que ahora depende de α y
β y la decisión final está sujeta a decisiones previas tomadas en pasos consecu-
tivos dentro del proceso. En términos generales un test secuencial requiere de
menor número de observaciones muestrales que un test basado en una muestra
aleatoria de tamaño fijo.
Como punto de partida en la construcción del concepto de juzgamiento se-
cuencial de hipótesis, se presenta la siguiente definición inicial que detalla la idea
de una clase particular de tests secuenciales, reconocida como tests secuenciales
de razón de verosimilitudes.
Definición 4.8.1. Siendo X1 , X2 , . . . , Xj una muestra aleatoria de tamaño j
de una población con función de densidad fX (x, θ), fijando los valores κ0 y κ1
tales que κ0 < κ1 , estableciendo el sistema de hipótesis

H0 : fX (x, θ) = fX (x, θ0 )
f rente a
H1 : fX (x, θ) = fX (x, θ1 )

y denotando la razón de verosimilitudes λj , para j = 1, 2, . . . , como

)
j
fX (x, θ0 )
L(θ0 ; x1 , x2 , . . . , xj )
λj = = i=1
L(θ1 ; x1 , x2 , . . . , xj ) )
j
fX (x, θ1 )
i=1

al test descrito por

τ :“Rechazar H0 en el paso j si λj ≤ κ0 ; no rechazar H0 si


λj ≥ κ1 ; incluir la observación xj+1 y calcular la nueva
razón de verosimilitudes λj+1 para continuar en el paso
j + 1 si κ0 < λj < κ1 ”

se le denomina test secuencial de razón de verosimilitudes.


La región crı́tica Cτ de un test secuencial τ está conformada por la unión de
las regiones Cτ,n a saber:

B
Cτ = Cτ,n
n=1
6 7
donde la región Cτ,n = xn |λj ∈ (κ0 , κ1 ), λn ≤ κ0 , j = 1, 2, . . . , n − 1 describe
el subconjunto del espacio de las observaciones, cuyos elementos facultan al test
secuencial para rechazar la hipótesis nula en el sistema de hipótesis establecido.
202 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

La región de aceptación del test secuencial τ , denotada por Aτ , de manera


similar a su región crı́tica es

B
Aτ = Aτ,n
n=1
6 7
siendo Aτ,n = xn |λj ∈ (κ0 , κ1 ), λn ≥ κ1 , j = 1, 2, . . . , n − 1 .
Como se comentó al iniciar la sección 4.8, el juzgamiento secuencial establece
previamente los valores de α y β manejando ası́ simultáneamente los errores del
tipo I y del tipo II y la delimitación del tamaño de la muestra sujeta a esas
determinaciones previas. En consecuencia,
∞  n
α= fX (xi , θ0 )dx1 dx2 · · · dxn
n=1 Cτ,n i=1
∞  n
β= fX (xi , θ1 )dx1 dx2 · · · dxn
n=1 Aτ,n i=1

Como α y β han sido establecidos de antemano, por lo tanto los conjuntos Aτ,n
y Cτ,n no están totalmente especificados y requieren para su determinación
de los valores de las constantes κ0 y κ1 , valores que definen plenamente el test
secuencial. Entonces el paso siguiente consiste en la concreción de dichos valores,
para los cuales el teorema siguiente facilita una aproximación.
Teorema 4.8.1. Definidos los tamaños de los errores α y β, los valores κ0 y
κ1 , que definen un test secuencial τ , pueden aproximarse mediante
α 1−α
κ0 ≈ y κ1 ≈
1−β β
Teorema 4.8.2. Definidos los tamaños de los errores α y β, y aproximados los
valores κ0 y κ1 , por κ∗0 = 1−β
α
y κ∗1 = 1−α
β respectivamente, los tamaños α∗ y
∗ ∗ ∗
β correspondientes a los valores por κ0 y κ1 , son tales que
α∗ + β ∗ < α + β
Ejemplo 4.8.1. Sea X1 , X2 , . . . , Xn una muestra aletoria de tamaño n, n un
valor no prefijado, de una población con distribución de Bernoulli de parámetro
θ. Un test secuencial τ para el juzgamiento de la hipótesis H0 : θ = θ0 en el
sistema de hipótesis simples
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
habiendo definido previamente α y β, puede formularse en los siguientes términos.
Definida la razón de verosimilitudes
)
j
θ0xi (1 − θ0 )1−xi  j x  j
i=1 θ0 (1 − θ1 ) i=1 i 1 − θ0
λj = j =
) xi θ1 (1 − θ0 ) 1 − θ1
θ1 (1 − θ1 )1−xi
i=1
4.8. JUZGAMIENTO SECUENCIAL 203

el test secuencial τ rechaza H0 : θ = θ0 si λj ≤ κ0 . Al utilizar la aproximación


derivada anteriormente, el test rechaza H0 si λj ≤ 1−βα
, es decir si

j
  xi  j
θ0 (1 − θ1 ) i=1 α 1 − θ1

θ1 (1 − θ0 ) 1 − β 1 − θ0

θ0 (1−θ1 )
asumiendo que θ0 < θ1 , entonces 1−θ 1
1−θ0 < 1 y θ1 (1−θ0 ) < 1, luego el test secuencial
rechaza la hipótesis nula H0 : θ = θ0 , si

  j    
θ1 (1 − θ0 )  1−β 1 − θ0
ln xi ≥ ln + j ln
θ0 (1 − θ1 ) i=1 α 1 − θ1

Denotando por
   
ln 1−β α ln 1−θ
1−θ1
0

a1 =   y por b=  
θ1 (1−θ0 ) θ1 (1−θ0 )
ln θ0 (1−θ1 ) ln θ0 (1−θ1 )

entonces el test rechaza la hipótesis nula si


j
xi ≥ a1 + bj
i=1

De otra parte, el test secuencial no rechaza la hipótesis nula, si λj ≥ κ1 ; igual-


mente que al utilizar la aproximación derivada anteriormente, el test no rechaza
H0 si λj ≥ 1−α
β , es decir si

j
  xi  j
θ0 (1 − θ1 ) i=1 1 − α 1 − θ1

θ1 (1 − θ0 ) β 1 − θ0

Denotando por
 
− ln 1−α β
a0 =  
ln θθ10 (1−θ 0)
(1−θ1 )

entonces el test no rechaza la hipótesis nula si


j
xi ≤ a0 + bj
i=1
204 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

En sı́ntesis, el test secuencial se puede formular de manera simplificada como


j
τ :“En el paso j rechazar H0 si xi ≥ a1 + bj; no rechazar H0
i=1


j
en el paso j si xi ≤ a0 + bj ; incluir la observación xj+1 para
i=1


j+1
calcular el nuevo valor xi y continuar en el paso j + 1 si
i=1


j
a0 + bj < xi < a1 + bj”
i=1

De manera gráfica puede entenderse el test como lo muestra la figura 4.16.


j
xi •
i=1 •


Rechazar H0 •

• •
• •
• •
• Continuar •


• No rechazar H0

1 2 3 4 5 6 7 8 9 10 j

Figura 4.16: Representación del test secuencial del ejemplo 4.8.1

Ejemplo 4.8.2. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de tamaño n, n


un valor no prefijado, de una población con distribución Gaussiana de valor
esperado θ y varianza σ 2 conocida. Un test secuencial τ para el juzgamiento de
la hipótesis H0 : θ = μ0 en el sistema de hipótesis simples

H0 : θ = μ0
f rente a
H1 : θ = μ0 + cσ
4.8. JUZGAMIENTO SECUENCIAL 205

siendo c una constante conocida y definidos previamente α y β, puede formularse


en los siguientes términos.
En primer lugar,
 j 
1  j
λj = exp (xi − μ0 − cσ)2 − (xi − μ0 )2
2σ 2 i=1 i=1

El test secuencial τ rechaza H0 : θ = μ0 , si λj ≤ κ0 , que al utilizar la aproxi-


mación obtenida anteriormente, el test rechaza H0 si λj ≤ 1−βα
, es decir si
 
1 
j 
j
α
exp (xi − μ0 − cσ) −
2
(xi − μ0 )
2

2σ 2 i=1 i=1
1−β

o equivalentemente, rechazar la hipótesis nula si


j  
(xi − μ0 ) 1 1−α c
≥ − ln +j
i=1
σ c β 2

Por otra parte, el test secuencial no rechaza la hipótesis nula, si λj ≥ κ1 ,


igualmente que al utilizar la aproximación obtenida anteriormente, el test no
rechaza H0 si λj ≥ 1−α
β , es decir si


j  
(xi − μ0 ) 1 1−α c
≤ − ln +j
i=1
σ c β 2

Recapitulando, el test secuencial se puede formular de manera simplificada como


j  
(xi − μ0 )
1 α c
τ :“En el paso j rechazar H0 si ≥ − ln +j ;
i=1
σ c 1 − β 2
 (xi − μ0 )
j  
1 1−α c
no rechazarla si ≤ − ln + j ; calcular el
i=1
σ c β 2

j+1
(xi − μ0 )
valor para continuar en el paso j + 1 si
i=1
σ

j      
(xi − μ0 ) 1 α c 1 1−α c
∈ − ln + j , − ln +j ”
i=1
σ c 1−β 2 c β 2

El tamaño de la muestra que siempre ha sido un interrogante mayúsculo,


en el juzgamiento secuencial tiene un sentido singular. Como la decisión de
rechazar o no rechazar la hipótesis nula puede ser pronta es decir tomada con
muy pocas unidades observadas, pero también tardı́a después de haber obser-
vado un número considerable de unidades, entonces el interrogante cambia de
¿cuál será el número de unidades que se debe elegir?, a ¿cuántas unidades en
206 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

promedio se deben elegir?, puesto que el tamaño de la muestra final como no


está predeterminado ya no es un número fijo sino variable porque depende de
λj y precisamente para estos precedimientos de tipo secuencial se asume como
una variable aleatoria, denotada como N .
En términos de la definción 4.8.1 se puede demostrar que tanto Eθ0 [N ] como
Eθ1 [N ] son finitos. A través de la llamada ecuación de Wald es posible establecer
aproximaciones a estos valores esperados del tamaño de muestra.
Teorema 4.8.3 (Ecuación de Wald). Si la sucesión Y1 , Y2 , . . . , Yn , . . . , es
una sucesión de variables aleatorias independientes e idénticamente distribuidas,
tales que E[|Yi |] y E[Yi ] = η son finitos, y si N es una variable aleatoria cuyo
recorrido es el conjunto de los naturales y cuyos valores n, dependen de las
variables Y1 , Y2 , . . . , Yn , entonces
N

E Yi = ηE[N ]
i=1
 
fX (xi ,θ0 )
Efectuando la sustitución yi = ln fX (xi ,θ1 ) , i = 1, 2, 3, . . . , entonces la

j
razón de verosimilitudes λj se puede expresar como λj = yi . De esta manera
i=1
el test secuencial se puede enunciar como

j
τ :“Rechazar H0 : θ = θ0 , si yi ≤ ln κ0 , no rechazar H0 : θ = θ0 ,
i=1


j
si yi ≥ ln κ1 , . . . ; incluir la observación yj+1 para calcular la
i=1


j+1
nueva razón de verosimilitudes yi , para continuar en el paso
i=1


j
j + 1 si ln κ0 < yi < ln κ1 ”
i=1

Como el tamaño de muestra no está prefijado, y sus valores considerados como


observaciones de la variable aleatoria
N N , cuando
 el test secuencial conduce a
 N
rechazar la hipótesis nula, P Yi ≤ ln κ0 = 1 y Yi tiende a tomar va-
i=1 i=1
 Ncercanos a ln κ0 y cuando
lores el test conduce a no rechazar la hipótesis nula
 N
P Yi ≥ ln κ1 = 1 y Yi tiende a tomar valores cercanos a ln κ1 . Bajo
i=1 N 
i=1 N 
 
estas consideraciones, Eθ0 Yi ≈ ln κ0 e igualmente Eθ1 Yi ≈ ln κ1 , ası́
N  i=1 i=1

entonces E Yi ≈ r ln κ0 + (1 − r) ln κ1 siendo r la probabilidad de rechazar
i=1
la hipótesis nula.
4.8. JUZGAMIENTO SECUENCIAL 207

Usando la ecuación de Wald el tamaño de muestra esperado


N 

E Yi
i=1
E[N ] =
η
de tal manera que su valor puede aproximarse como
r ln κ0 + (1 − r) ln κ1
E[N ] ≈
η
luego
   
α ln κ0 + (1 − α) ln κ1 α ln α
1−β + (1 − α) ln 1−α
β
1. Eθ0 [N ] ≈ ≈
Eθ0 [Yi ] Eθ0 [Yi ]

  
(1 − β) ln κ0 + β ln κ1 (1 − β) ln 1−β
α
+ β ln 1−α
β
2. Eθ1 [N ] ≈ ≈
Eθ1 [Yi ] Eθ1 [Yi ]
Ejemplo 4.8.3. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población
con distribución Gaussiana de valor esperado θ y varianza conocida σ 2 . Deter-
minar el tamaño de la muestra requerido para el juzgamiento de la hipótesis
nula H0 , en el sistema de hipótesis:

H0 : θ = 75
f rente a
H1 : θ = 80

bajo las siguientes condiciones: α = 0.01, β = 0.05, σ 2 = 25. Igualmente


determinar los tamaños de muestra esperados si el test que se va utilizar es un
test secuencial.
El test τ : “Rechazar H0 si xn > c” es un test equivalente al test de razón
simple de verosimilitudes. Entonces
√ √ 

n(X n − 75) n(c − 75)
Pθ=75 X n > c = 0.01 = Pθ=75 >
5 5
√ √ 

n(X n − 80) n(c − 80)
Pθ=80 X n < c = 0.05 = Pθ=80 <
5 5
luego
√  √ 
n(c − 75) n(c − 80)
Φ = 0.99 y Φ = 0.05
5 5

es decir
√ √
n(c − 75) n(c − 80)
= z0.99 = 2.326347 y = z0.05 = −1.64485348
5 5
208 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS


de donde se deduce que n = 3.97120048, entonces n = 15.7704332, es decir
n = 16. En general si el sistema de hipótesis se formula como

H0 : θ = μ0
f rente a
H1 : θ = μ1

siendo μ0 < μ1 ,
 
fX (xi , μ0 ) 1

yi = ln , i = 1, 2, 3, . . . , yi = − 2 (μ20 − μ21 ) − 2xi (μ0 − μ1 )
fX (xi , μ1 ) 2σ
luego
1
Eμ0 [Yi ] = (μ1 − μ0 )2
2σ 2
1
Eμ1 [Yi ] = − 2 (μ1 − μ0 )2

1
Para el caso particular μ0 = 75, μ1 = 80, σ 2 = 25, Eθ=75 [Yi ] = 2,
Eθ=80 [Yi ] = − 21 , α = 0.01, β = 0.05, entonces
    
α 1−α
Eθ0 [N ] ≈ 2 α ln + (1 − α) ln = 5.8206 ≈ 6
1−β β
    
α 1−α
Eθ1 [N ] ≈ −2 (1 − β) ln + β ln = 8.3538 ≈ 9
1−β β
En general esta propiedad de necesitar un tamaño esperado de la muestra menor
al tamaño de la muestra que requieren los tests que deben determinar previa-
mente el citado tamaño, es una propiedad que caracteriza a los tests secuenciales.
Terminada esta breve presentación de la idea central de un test secuencial,
se continua con la siguiente sección dedicada al juzgamiento del ajuste.

4.9 Juzgamiento del ajuste


Constituyendo distintas formas de teorizar y de aplicar conceptos, posiciones que
no rivalizan dentro de una concepción unitaria de la Estadı́stica, algunas áreas
de la Estadı́stica prescinden de los modelos de probabilidad mientras que otras,
como la concepción Bayesiana, extienden su tarea. Pero indiscutiblemente a la
esencia misma de la Inferencia estadı́stica le son inherentes los modelos proba-
bilı́sticos; por ello en reiteradas ocasiones este texto se ha referido al modelo de
probabilidad elegido, como la manera propia de representar el comportamien-
to de una variable y más especı́ficamente para representarlo en la acepción de
población.
A partir de la elección de un modelo se buscan o evalúan estadı́sticas para
su certificación como estimadores, se construyen buenos intervalos confiden-
ciales para alguna función del parámetro o para sus componentes, se apoya el
4.9. JUZGAMIENTO DEL AJUSTE 209

juzgamiento de una hipótesis relativa precisamente al modelo elegido. ¿Pero,


para un caso particular, cuál debe ser el modelo adecuado?.
Por supuesto que hay innumerables distribuciones estadı́sticas que pueden
servir de modelo para representar una población especı́fica; pero por tratarse
de una tarea de adopción de un paradigma lo más fiel a la realidad en estudio,
la elección debe responder tanto a razones estadı́sticas como a argumentos no
estadı́sticos. La tradición de un modelo para representar una variable puede
ser un argumento importante, porque permite la comparación de resultados de
distintas investigaciones o estudios, pero no siempre debe ser el único argumento;
indiscutiblemente en los detalles del conocimiento del fenómeno dentro del cual
se modela una variable se encuentran argumentos de mayor significación para
señalar a un modelo en particular.
Pero al lado de razones propias de la naturaleza del fenómeno, hay instru-
mentos estadı́sticos que permiten valorar la aptitud del modelo de ser emulado
por la información disponible en la muestra. Se trata de un variado repertorio
de procedimientos bajo la denominación de bondad del ajuste, construidos sobre
diversos puntos de vista. El lector encontrará una profusa bibliografı́a sobre
el ajuste a modelos probabilı́sticos, principalmente al modelo Gaussiano, cono-
cido como pruebas de Normalidad . Este texto sólamente introduce las ideas
pertinentes al tema por medio de los tests, de Pearson, como uno de los pro-
cedimientos más tradicionales para el examen de la calidad del ajuste y el test
de Kolmogorov-Smirnov. Sin embargo es necesario mencionar la existencia de
tests como los de Lilliefors, el test de Normalidad de Anderson-Darling, pruebas
especiales para el juzgamiento de la Normalidad como la de Shapiro-Wilk o la de
Martinez-Iglewics, que poseen propiedades especiales y las hacen en cierta forma
más demandadas, tests entre otros que el lector podrá estudiar y profundizar
en un curso de Estadı́stica no paramétrica principalmente.

4.9.1 Juzgamiento del ajuste por el método de Pearson


Propuesta a principio del siglo XX por Pearson, es la forma pionera de los tests
de juzgamientos del ajuste, aún cuando un concepto paralelo al tema venı́a
desarrollándose en el siglo anterior: la estimación de una función de densidad.
Para dar inicio a las consideraciones del juzgamiento del ajuste, se fija una
partición del recorrido de la variable que va a ser representada por la variable
aleatoria X, asumida como modelo para la población, partición constituida por
k clases disyuntas y se considera además una muestra aleatoria X1 , X2 , . . . , Xn ,
de tamaño n de una población cuya función de densidad no se conoce.
En palabras muy concretas, la decisión frente a la elección de un modelo
propuesto, corresponde al juzgamiento de la hipótesis: “el modelo candida-
to interpreta adecuadamente el comportamiento poblacional”, hipótesis que se
traduce en la mayorı́a de las veces a través de la función de distribución como
H0 : FX (x) = F0 (x, θ) para todo x, frente a alguna hipótesis alterna apropiada.
Siendo Nj la variable que contabiliza el número de observaciones mues-
trales que pertenecen a la j-ésima clase cj , j = 1, 2, . . . , k, el vector aleatorio
V = (N1 , N2 , . . . , Nk ) tiene distribución multinomial con parámetro
210 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS


k
θ = (π1 , π2 , . . . , πk ) cuyos componentes son tales que πj = 1, y por otra
j=1

k
parte nj = n, nj ∈ {0, 1, . . . , n}. En otros términos, que su función de
j=1
densidad es:

P [V = v = (n1 , n2 , . . . , nk )] = P [N1 = n1 , N2 = n2 , . . . , Nk = nk ]
n
n! n
= πj j
)
k
nj ! i=1
j=1

El j-ésimo componente del vector θ, πj , denota la probabilidad de que una


observación muestral pertenezca a la clase j, probabilidad que se calcula por
supuesto por medio del modelo en consideración. De esta manera el sistema de
hipótesis que incluye la hipótesis nula reformulada puede plantearse como

H0 : πj = πj0 , j = 1, 2, . . . , k
f rente a
H1 : πj = πj0 , j = 1, 2, . . . , k

Ası́ entonces el test de razón generalizada de verosimilitudes será


k
 nj
πj0
τ : “Rechazar H0 si λn = nn <c”
j=1
nj

test que al contar con un tamaño de muestra suficientemente grande, en conso-


nancia con el enunciado del teorema 4.2.2 página 161, puede enunciarse como
⎡  nj ⎤
k
πj0
τ : “Rechazar H0 si − 2 ln ⎣nn ⎦ > χ21−α (k − 1) ”
j=1
n j

La idea de Pearson, anterior a la existencia de conceptos como la razón genera-


lizada de verosimilitudes, es la de cotejar la frecuencia Nj , denominada j-ésima
frecuencia observada con la frecuencia nπj0 conocida como j-ésima frecuencia
esperada, porque bajo la adopción del modelo, E[Nj ] = nπj0 . Pearson sintetiza
su idea en la estadı́stica
k
(Nj − nπj0 )2
j=1
nπj0

pues valores pequeños de ella se constituyen en argumentos a favor de la hipótesis


nula, que en general se le entiende como ajuste, mientras que los valores grandes
son evidencias estadı́sticas de no coherencia con el modelo, es decir de no ajuste.
La Estadı́stica de Pearson converge en distribución a una variable aletoria con
4.9. JUZGAMIENTO DEL AJUSTE 211

distribución Ji-cuadrado con (k − 1) grados de libertad, luego la adopción del


modelo se desecha si
k
(Nj − nπj0 )2
0 > χ21−α (k − 1)
j=1
nπj

Ejemplo 4.9.1. Como preparación a la evaluación del ajuste al modelo Uni-


forme en el intervalo (0, 1) de una variable que toma valores en el mismo inter-
valo, se establece una partición que por comodidad puede consistir
 de jsubinter-

valos de igual amplitud; es decir, que el subintervalo j-ésimo es j−1
k , k , de tal
manera que
 kj
0 1
πj = dx = , j = 1, 2, . . . , k
j−1
k
k
En segundo lugar se considera una muestra aleatoria X1 , X2 , . . . , Xn , de tamaño
n de una población Uniforme en el intervalo (0, 1), y a partir de ella se determi-
na cada una de las variables Nj , tal como se señaló anteriormente, con lo cual
se establece la Estadı́stica de Pearson.
De manera particular, la proporción de la prima legal que el asalariado dedica a
pagar obligaciones económicas contraı́das anteriormente, es una de las variables
de interés para un estudio sociológico, de cuyos resultados se extrae la tabla 4.3,
basada en los resultados de una entrevista a 950 empleados del sector manufac-
turero.
Porcentaje Número de
dedicado Pacientes
Más de hasta
0 20 162
20 40 210
40 60 194
60 80 186
80 100 198
Total 950

Tabla 4.3: Distribución del número de empleados según el porcentaje de la


prima que dedican al pago de sus obligaciones económicas adquiridas

Los teóricos sociales encargados de la conducción del estudio no encuentran ra-


zones especiales para afirmar que la proporción de la prima dedicada a cubrir
obligaciones económicas contraı́das, tenga una distribución con algún sesgo o
que tenga un apuntamiento especial, por lo tanto encuentran razonable el uso
del modelo Uniforme para describir rasgos de este aspecto de los empleados.
La tabla 4.4 presenta tanto las frecuencias observadas y esperadas como los
sumandos para la determinación del valor de la Estadı́stica de Pearson, deriva-
dos de la información precedente.
212 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

(nj − npi0j )2
j Clase j nj nπj0
npi0j
1 [0, 0.2] 174 190 1.34736842
2 (0.2, 0.4] 198 190 0.33684211
3 (0.4, 0.6] 194 190 0.08421053
4 (0.6, 0.8] 186 190 0.08421053
5 (0.8, 1.0] 198 190 0.33684211
Total 2.18947368

Tabla 4.4: Elementos para el cálculo del valor de la Estadı́stica de Pearson


correspondiente al ejemplo 4.9.1

El percentil 95 de una variable con distribución Ji-cuadrado con (k − 1) = 4


grados de libertad, corresponde al valor 9.48778, por lo tanto al ser el valor de
la Estadı́stica de Pearson menor que el mencionado percentil, se concluye que
no hay evidencia estadı́stica para rechazar el modelo uniforme para caracterizar
con propiedad la proporción de la prima de los empleados dedicada a cubrir
obligaciones económicas contraı́das, decisión idéntica si se utiliza el valor p cuyo
valor corresponde a 0.70095688.

Ejemplo 4.9.2. Igualmente como preparación a la evaluación del ajuste al


modelo Gaussiano con valor esperado μ y varianza σ 2 totalmente especifica-
dos, de una variable de interés, se determina una partición de la recta real que
por comodidad puede consistir de k subintervalos disyuntos de igual amplitud,
exceptuándose el primero y el último. El subintervalo j-ésimo (xj−1 , xj ), con
x0 = −∞ y xk = ∞, es un intervalo cuya probabilidad es
 xj  2      
1 1 x−μ xj − μ xj−1 − μ
0
πj = √ exp − dx = Φ −Φ
xj−1 2πσ 2 σ σ σ

j = 1, 2, . . . , k, y seguidamente se considera una muestra aleatoria


X1 , X2 , . . . , Xn , de tamaño n de una población cuya densidad se desconoce
y a partir de ella se determina cada una de las variables Nj , tal como se ha
señalado, para establecer la correspondiente Estadı́stica de Pearson.
Especı́ficamente en un estudio Neumológico, la CPT (capacidad pulmonar to-
tal) definida como el volúmen máximo que los pulmones pueden alcanzar con
el máximo esfuerzo, es una de las variables relevantes. En los adultos la CPT
tiene como promedio 5800 ml, con una desviación estándar de 150 ml. De una
muestra de 270 pacientes, sin antecedentes neumológicos, a los cuales se les re-
alizó un exámen para determinar la CPT, se ha resumido la información de esta
variable en la tabla 4.5.
¿El modelo Gaussiano de valor esperado 5800 y desviación estándar de 150, será
una elección acertada como modelo para representar la capacidad pulmonar to-
tal de pacientes que cumplen los criterios de inclusión definidos para el estudio?.
4.9. JUZGAMIENTO DEL AJUSTE 213

CPT(ml) Número de
Pacientes
Menos de 5400 12
de 5400 a 5500 46
de 5500 a 5700 78
de 5700 a 5850 80
de 5850 a 6000 39
de 6000 y más 15
Total 270

Tabla 4.5: Distribución del número de pacientes según la capacidad pulmonar


total

La tabla 4.6 presenta tanto las frecuencias observadas y esperadas como los
sumandos para la determinación del valor de la Estadı́stica de Pearson, deriva-
dos de la información precedente.

(nj − npi0j )2
j Clase j nj πj0 nπj0
npi0j
1 (−∞, 5400] 2 0.003830425 1.03421478 0.90188334
2 (5400, 5550] 15 0.043959905 11.86917443 0.82584251
3 (5550, 5700] 60 0.204702137 55.26957697 0.40486834
4 (5700, 5850] 102 0.378066128 102.07785468 5.9680E-05
5 (5850, 6000] 71 0.278230122 75.12213300 0.22619140
6 (6000, ∞] 20 0.091211282 24.62704613 0.86935135
Total 3.22819633

Tabla 4.6: Elementos para el cálculo del valor de la Estadı́stica de Pearson


correspondiente al ejemplo 4.9.2

El percentil 95% de una variable con distribución Ji-cuadrado con (k − 1) = 5


grados de libertad, corresponde al valor 11.0705, por lo tanto al ser el valor de
la estadı́stica de Pearson menor que el mencionado percentil, se concluye que no
hay evidencia estadı́stica para rechazar el modelo Gaussiano como modelo apto
para caracterizar la CPT, decisión equivalente a utilizar el valor p cuyo valor es
0.66485144.
En estos ejemplos se proporcionaron explı́citamente los valores de los com-
ponentes del parámetro. En el primer caso θ1 = 0 y θ2 = 1, en el segundo caso
θ1 = μ = 5800 y θ2 = σ 2 = (150)2 . Sin embargo no siempre ocurre que el mo-
delo en elección esté completamente especificado; muchas veces se candidatiza
a la familia de modelos y no a un miembro particular de ella, lo cual implica la
estimación de componentes del parámetro, bajo el modelo en consideración por
supuesto, y de esta manera se afecta la distribución de la Estadı́stica de Pearson,
214 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

pues se reducen los grados de libertad en el número de componentes estimados.


La demostración de esta afirmación está en concordancia con el teorema 4.2.2
y está fuera de los alcances de este texto.
Entonces si en el ejemplo anterior no se hubiesen especificado los valores de
μ = 5800 y σ = 150, habrı́a sido necesario estimar los dos componentes del
parámetro, y como consecuencia los grados de libertad disminuirı́an de 5 a 3.
Con esta modificación en los grados de libertad y la sustitución de μ y σ por sus
respectivas estimaciones, que para este caso son x270 = 5698.88 y s270 = 182.45,
el procedimiento es el mismo que el seguido en los dos ejemplos anteriores.

4.9.2 Juzgamiento del ajuste por el método de Kolmogorov-


Smirnov
Como se manifesto en el tı́tulo anterior, que la decisión frente a la elección de
un modelo propuesto, es equivalente al juzgamiento de la hipótesis: “el modelo
candidato interpreta adecuadamente el comportamiento poblacional ”, traduci-
da generalmente a través de la función de distribución, este método evalúa el
ajuste a modelos que representen variables continuas y juzga la hipótesis nula
H0 : FX (x) = F0 (x, θ) para todo x, dentro del sistema de hipótesis

H0 : FX (x) = F0 (x, θ) para todo x


f rente a
H1 : FX (x) = F0 (x, θ) para algún x

A diferencia de la idea de Pearson que coteja las frecuencias observadas con las
frecuencias esperadas, la idea de Kolmogorov por su parte, coteja la función de
distribución correspondiente al modelo postulado con la función de distribución
empı́rica. A principio de los años 30 del siglo pasado, Kolmogorov, condensó su
idea en la estadı́stica

Dn = sup |Fn (x) − F0 (x, θ)|


−∞<x<∞

que luego Smirnov a finales de los mencionados años la hizo extensiva a otros
propósitos, estadı́stica cuya distribución depende directamente del tamaño de la
muestra como lo garantiza el teorema de Glivenko-Cantelli. Del mismo teorema,
se puede afirmar que valores pequeños de la estadı́stica Dn son argumentos
estadı́sticos a favor de la hipótesis nula, porque si la mayor diferencia entre la
distribución propuesta y la función de distribución empı́rica es relativamente
pequeña, las demás diferencias también serán pequeñas y por lo tanto el modelo
es pertinente; mientras que valores grandes de la estadı́stica se constituyen en
evidencias estadı́sticas para prescindir del modelo propuesto como representante
del comportamiento poblacional.
La distribución muestral de Dn tiene una expresión engorrosa, que el lector
puede consultar en Nonparametric Statistical Inference de J.D.Gibbons (1971)
páginas 77 a 81. El siguiente teorema presenta una aproximación cuando el
tamaño de muestra es relativamente grande.
4.9. JUZGAMIENTO DEL AJUSTE 215

Teorema 4.9.1. Si F0 (x, θ) es una función de distribución continua, entonces


para cada v > 0,
  ∞
v
lim P Dn ≤ √ = h(v) = 1 − 2 (−1)j−1 exp(−2j 2 v 2 )
n→∞ n j=1

La función h(v) fue tabulada por Smirnov a mediados del siglo pasado y
muchos programas de cómputo estadı́stico han incluido algoritmos para la de-
terminación de los respectivos percentiles y el cálculo de los valores p, e igual-
mente algunos textos, principalmente los textos de Estadı́stica no paramétrica
incluyen tablas que permiten determinar los percentiles correspondientes.
En pocas palabras, cuando la calidad del ajuste no es satisfactoria se descar-
ta el modelo propuesto, decisión que se adopta cuando dn > c. Utilizando la
aproximación ofrecida por el teorema anterior, el tamaño del test puede estable-
cerse mediante, la expresión
 
v
α = P Dn > √
n

Ejemplo 4.9.3. Para ilustrar la parte operativa del ajuste por el método de
Kolmogorov-Smirnov, una muestra de 25 baldosas de cerámica de un lote de
producción fueron seleccionadas para identificar el modelo apropiado para de-
scribir la variabilidad del grosor de la baldosa que ella alcanza al final del proceso
de fabricación. Teniendo en cuenta información que acopia el Departamento de
control de calidad, es razonable pensar que el grosor tiene un comportamiento
uniforme entre 90 y 110 milı́metros. La tabla 4.7, presenta los valores particu-
lares de la muestra ordenados, la función empı́rica, la función de distribución
correspondiente al modelo en consideración y las diferencias entre ellas.
Como sup |F25 (x) − F0 (x, θ)| = 0.05 y el percentil 95 de la distribución de Dn
es 0.238 (valor tomado de la Tabla III en Applied Nonparametric Statistical
Methods de P. Sprent (1993)), no hay evidencia estadı́stica para desechar el
modelo uniforme en el intervalo (90, 110) para describir las irregularidades, con
respecto al estándar, del grosor de la baldosa.
Nota. El juzgamiento del ajuste de una variable discreta mediante el método
de Pearson no tiene restricción alguna, sólo la que le es común a cualquier tipo
de variable: tamaño de una muestra relativamente grande, para que sea legı́timo
el uso de los percentiles de una variable aleatoria con distribución Ji-cuadrado,
o el cálculo de los valores p a través de ella, como los puntos de referencia para
tomar la decisión. El método de juzgamiento del ajuste mediante la estadı́stica
de Kolmogorov-Smirnov se ha establecido sobre la consideración de que F0 (x, θ)
es continua. Sin embargo algunos autores como Noether han demostrado que
se puede utilizar el procedimiento para ajuste de modelos discretos, pero que el
nivel del test se altera.
Para dar fin a este capı́tulo y por consiguiente al contenido de este texto,
un punto final al vocablo: modelo, que aparece por primera vez en este texto
216 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

Valores
ordenados F25 (x) F0 (x, θ) |F25 (x) − F0 (x, θ)|
91 0.04 0.05 0.01
92 0.08 0.10 0.02
93 0.12 0.15 0.03
94 0.20 0.20 0.00
94 0.20 0.20 0.00
95 0.28 0.25 0.03
95 0.28 0.25 0.03
96 0.32 0.30 0.02
97 0.36 0.35 0.01
98 0.40 0.40 0.00
99 0.44 0.45 0.01
100 0.48 0.50 0.02
101 0.52 0.55 0.03
102 0.56 0.60 0.04
103 0.60 0.65 0.05
104 0.72 0.70 0.02
104 0.72 0.70 0.02
104 0.72 0.70 0.02
106 0.76 0.80 0.04
107 0.84 0.85 0.01
107 0.84 0.85 0.01
108 0.88 0.90 0.02
109 0.96 0.95 0.01
109 0.96 0.95 0.01
110 1.00 1.00 0.00

Tabla 4.7: Valores muestrales ordenados del grosor de las baldosas y sus respec-
tivos valores de las funciones de distribución

precisamente en la primera página cuando se cita una frase del psicólogo Jerome
Seymour Bruner, con la cual se encabeza el capı́tulo inicial, vocablo mencionado
con frecuencia de manera explı́cita o tácita en todos los capı́tulos y que incluso
también en esta última página se hace alusión a él.
La mente humana puede construir modelos tan artificiosos y complejos como
quiera, pues cuenta con herramientas que le permiten elaborar ilimitadamente
mundos virtuales donde puede incorporar a voluntad, propiedades, relaciones,
normas, semánticas, en fin, un sinnúmero de elementos, agregados a voluntad o
en coherencia con otros, para generar la dinámica propia de ese mundo virtual.
Pero tal vez no sea la mejor ruta, el excesivo detalle y meticulosidad en la
elaboración del modelo, tratándose de encontrar un paradigma que a manera
de una réplica ofrezca alternativas de explicación de la realidad, de reproduc-
4.9. JUZGAMIENTO DEL AJUSTE 217

ción simplificada de los rasgos y caracterı́sticas de ella. Si bien es cierto que


en el modelado de la realidad se incluyen elementos no reales y se excluyen
realidades que se suponen o se demuestran que son superfluas, en la descrip-
ción o explicación de un fenómeno, ese proceso modelador debe estar inspirado
en un principio de economı́a que permite simplificar al máximo los conceptos,
elementos y relaciones del modelo.
Guillermo de Ockham polémico filósofo del siglo XIV ya lo advertı́a con su
famosa “Ley de parsimonia ”que corrientemente se le conoce como “Navaja de
Ockham ”, consistente en la inutilidad de multiplicar los elementos explicativos o
descriptivos de algún fenómeno, enunciada como “Entia non sunt multiplicanda
sine necessitate ”que puede traducirse como, no hay que multiplicar las cosas sin
necesidad, y entenderse en este texto como la intención sana de formular modelos
y teorı́as que busquen explicar los hechos utilizando el mı́nimo de presupuestos.
Los modelos probabilı́sticos, como se ha afirmado a lo largo de este texto
son modelos especiales que intentan reproducir un comportamiento exclusivo
de variabilidad, modelos que incorporan expresiones matemáticas propias que
lo identifican y lo caracterizan, expresiones que dependen principalmente de
parámetros que habilitan la identificación de miembros de una familia particu-
lar de modelos. Como modelos que son, los modelos probabilı́sticos no están
exentos de ser construidos de manera exagerada y compleja complicando muy
posiblemente su manejo.
La sencillez del modelo despojado de lo superfluo, con parsimonia en sus
parámetros, lo enaltece, lo hace atractivo, lo hace útil. Por ello la propuesta
de modelos sencillos para representar una población particular, cuando los mo-
delos usuales y tradicionales no colman las expectativas de los investigadores y
analistas estadı́sticos en casos especı́ficos, es un reto interesante para una mente
inquieta que ve en la naturaleza la fuente de inspiración y el motivo de sus
reflexiones estadı́sticas.

“La mayorı́a de las ideas fundamentales de la ciencia


son esencialmente sencillas y por lo general pueden ser
expresadas en un lenguaje comprensible para todos”.
Albert Einstein
218 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

4.10 Demostración de los teoremas del capı́tulo


Demostración (Teorema 4.2.1). Como preparación a la demostración, se
tienen los siguientes elementos
1. Paralelamente al test τ , se considera cualquier test τ  para el juzgamiento
de la hipótesis nula, con función crı́tica ϕτ  (xn ) y nivel α.
2. Además de la región crı́tica Cτ,n asociada al test τ , cuya función crı́tica
es ψτ (xn ), se establecen los siguientes conjuntos, disyuntos entre sı́ y
disyuntos con Cτ,n ,
  n 
 n

D = xn  k fX (xi , θ1 ) < fX (xi , θ0 )

i=1 i=1
  n 
 n
 
E = xn k fX (xi , θ1 ) = fX (xi , θ0 )

i=1 i=1


3. ψτ (Xn ) puede considerarse como una variable aleatoria con distribución
de Bernoulli cuya probabilidad de éxito bajo θ0 es





Pθ0 ψτ (Xn ) = 1 = Eθ0 ψτ (Xn ) =α
5
4. El sı́mbolo corresponde a la integral múltiple sobre el conjunto A y dxn
A
representa a dx1 dx2 . . . dxn .
El objeto de la demostración es simple: concluir que πτ (θ1 ) ≥ πτ  (θ1 ) tal como
lo estipula la definición 4.2.1 o en otros términos concluir que





Eθ1 ψτ (Xn ) ≥ Eθ1 ϕτ  (Xn )
Para ello la demostración gira alrededor de la diferencia:





 

Δ = Eθ1 ψτ (Xn ) − Eθ1 ϕτ  (Xn ) = Eθ ψτ (Xn ) − ϕτ  (Xn )


n
= ψτ (xn ) − ϕτ  (xn ) fX (xi , θ1 )dxn
X i=1

Como X = Cτ,n ∪ D ∪ E


n
Δ= ψτ (xn ) − ϕτ  (xn ) fX (xi , θ1 )dxn
Cτ,n i=1


n
+ ψτ (xn ) − ϕτ  (xn ) fX (xi , θ1 )dxn
D i=1


n
+ ψτ (xn ) − ϕτ  (xn ) fX (xi , θ1 )dxn
E i=1
4.10. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 219

cuando xn ∈ Cτ,n , ψτ (xn ) = 1 y cuando xn ∈ D, ψτ (xn ) = 0, ası́ entonces,

 

n

n
Δ1 = 1 − ϕτ  (xn ) fX (xi , θ1 )dxn + −ϕτ  (xn ) fX (xi , θ1 )dxn
Cτ,n i=1 D i=1


n
+ ψτ (xn ) − ϕτ  (xn ) fX (xi , θ1 )dxn
E i=1

)
n )
n
Adicionalmente cuando xn ∈ Cτ,n , k fX (xi , θ1 ) > fX (xi , θ0 ), y con ello
i=1 i=1

 

n

n
k 1 − ϕτ  (xn ) fX (xi , θ1 )dxn > 1 − ϕτ  (xn ) fX (xi , θ0 )dxn
Cτ,n i=1 Cτ,n i=1

)
n )
n
igualmente, cuando xn ∈ D entonces −k fX (xi , θ1 ) > − fX (xi , θ0 ) y por
i=1 i=1
lo tanto

 

n

n
k −ϕ τ (xn ) fX (xi , θ1 )dxn > −ϕτ  (xn ) fX (xi , θ0 )dxn
D i=1 D i=1

)
n )
n
y finalmente cuando xn ∈ E, k fX (xi , θ1 ) = fX (xi , θ0 ), con lo cual,
i=1 i=1



n
k ψτ (xn ) − ϕτ  (xn ) fX (xi , θ1 )dxn
E i=1


n
= ψτ (xn ) − ϕτ  (xn ) fX (xi , θ0 )dxn
E i=1
220 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

teniendo en cuenta las desigualdades descritas,


 

n

n
kΔ1 > 1 − ϕτ  (xn ) fX (xi , θ0 )dxn + −ϕτ  (xn ) fX (xi , θ0 )dxn
Cτ,n i=1 D i=1


n
+ ψτ (xn ) − ϕτ  (xn ) fX (xi , θ0 )dxn = Δ2
E i=1


n
Δ2 = ψτ (xn ) − ϕτ  (xn ) fX (xi , θ0 )dxn
Cτ,n i=1


n
+ ψτ (xn ) − ϕτ  (xn ) fX (xi , θ0 )dxn
D i=1


n
+ ψτ (xn ) − ϕτ  (xn ) fX (xi , θ0 )dxn
E i=1

 

= Eθ0 ψτ (Xn ) − ϕτ  (Xn )

como los test tienen el mismo nivel, Δ2 = α − α = 0 y como kΔ1 > Δ2 se puede
afirmar que Δ1 ≥ 0, luego





Eθ1 ψτ (Xn ) ≥ Eθ1 ϕτ  (Xn )

conclusión que garantiza que el test τ cuya región crı́tica es Cτ,n es un test más
potente para

H0 : θ = θ 0
f rente a
H1 : θ = θ 1

Demostración (Teorema 4.2.2). Puede consultarse en Mathematical Statis-


tics de Wilks (1962), en las páginas 419 y 420.

Demostración (Teorema 4.2.3). Sean θ1 y θ2 dos valores de θ de tal manera


que θ1 ≤ θ0 y θ2 > θ0 , con ellos se formula un nuevo sistema de hipótesis simples
como:

H0∗ : θ = θ1
f rente a
H1∗ : θ = θ2

El lema de Neyman-Pearson garantiza que el test,

L(θ1 ; x1 , x2 , . . . , xn )
τ : “Rechazar H0∗ si λn = < κ”
L(θ2 ; x1 , x2 , . . . , xn )
4.10. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 221

es un test más potente para H0∗ en el nuevo sistema. Dado que la familia
{fX (x, θ)} tiene MLR en la estadı́stica T = t(X1 , X2 , . . . , Xn ), y suponiendo
que el cociente de verosimilitudes es una función no creciente de t(x1 , x2 , . . . , xn ),
afirmar que λn < κ equivale a afirmar que t(x1 , x2 , . . . , xn ) > t1−α , como lo
indica la figura 4.17,

λn

t1−α t

Figura 4.17: Esquema de un cociente no creciente de verosimilitudes como fun-


ción de los valores de la estadı́stica Tn

por lo tanto el test se puede formular de manera equivalente como

τ : “Rechazar H0∗ si t(x1 , x2 , . . . , xn ) > t1−α ”

Este test es UMP para H0 en el sistema,

H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0

debido a que el test no depende de θ1 ni de θ2 , porque el test es más potente para


cualquier escogencia de θ1 , θ2 ∈ Θ, sujetos a que θ1 ≤ θ0 < θ2 . El otro numeral
del enunciado del teorema se demuestra de igual manera.

Demostración (Teorema 4.8.1). Asumiendo que la hipótesis nula es cierta,


entonces
∞  n
α= fX (xi , θ0 )dx1 dx2 · · · dxn
n=1 Cτ,n i=1
222 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

y además que
n n
fX (xi , θ0 ) ≤ κ0 fX (xi , θ1 )
i=1 i=1

por lo tanto
∞ 
 n
α ≤ κ0 fX (xi , θ1 )dx1 dx2 · · · dxn = (1 − β)
n=1 Cτ,n i=1

porque
∞ 
 n
fX (xi , θ1 )dx1 dx2 · · · dxn
n=1 Cτ,n i=1

corresponde a la probabilidad de rechazar H0 cuando H1 se considera cierta.


Luego
α
α ≤ κ0 (1 − β), es decir ≤ κ0
1−β

Por otra parte, la probabilidad de no rechazar H0 siendo ella verdadera corres-


ponde a
∞ 
 n
1−α= fX (xi , θ0 )dx1 dx2 · · · dxn
n=1 Aτ,n i=1

y como en los casos de no rechazo de la hipótesis nula,


n n
fX (xi , θ0 ) ≥ κ1 fX (xi , θ1 )
i=1 i=1

entonces
∞ 
 n
1 − α ≥ κ1 fX (xi , θ1 )dx1 dx2 · · · dxn = κ1 β
n=1 Aτ,n i=1

luego
1−α
1 − α ≥ κ1 β, es decir κ1 ≤
β
α
κ0 tiene entonces una cota inferior 1−β y κ1 tiene una cota superior 1−α
β , cotas
que se pueden asumir como aproximaciones a κ0 y κ1 respectivamente.

Demostración (Teorema 4.8.2). Sean Cτ∗ , Cτ,n ∗


, A∗τ , A∗τ,n las regiones crı́ticas
y de aceptación correspondientes a los niveles α∗ y β ∗ derivados de los valores
4.11. EJERCICIOS DEL CAPÍTULO 223

κ∗0 y κ∗1 .
∞ 
 n
α∗ = fX (xi , θ0 )dx1 dx2 · · · dxn

Cτ,n
n=1 i=1
∞  n
α
≤ fX (xi , θ1 )dx1 dx2 · · · dxn
1−β n=1

Cτ,n i=1

de acuerdo a uno de los pasos de la demostración del teorema 4.8.1,


∞ 
α 
n
α
fX (xi , θ1 )dx1 dx2 · · · dxn = (1 − β ∗ )
1 − β n=1 Cτ,n

i=1
1 − β

similarmente,
∞ 
 n
1 − α∗ = fX (xi , θ0 )dx1 dx2 · · · dxn
n=1 A∗
τ,n i=1

∞  n
1−α
≥ fX (xi , θ1 )dx1 dx2 · · · dxn
β n=1 A∗
τ,n i=1

a su vez
∞ 
1−α 
n
1−α ∗
fX (xi , θ1 )dx1 dx2 · · · dxn = β
β n=1 A∗τ,n i=1 β

Concretamente de lo anterior,
α 1−α
α∗ ≤ (1 − β ∗ ) y (1 − α∗ ) ≥
1−β β
A partir de estas desigualdades es fácil comprobar que
α∗ + β ∗ ≤ α + β

4.11 Ejercicios del capı́tulo


1. Adoptanto el modelo Uniforme en el intervalo (0, θ) para representar el
comportamiento de una población, para la cual se conjetura además que
el valor del parámetro no excede a θ0 , se determina el siguiente sistema
de hipótesis
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
formalice un test con nivel α para el juzgamiento de H0 dentro de este
sistema de hipótesis, basado en una muestra aleatoria de tamaño n de esta
población.
224 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

2. Bajo las consideraciones del ejercicio anterior, formalice un test con nivel
α para el juzgamiento de H0 dentro del sistema de hipótesis

H0 : θ = θ 0
f rente a
H1 : θ = θ0

3. Establezca una expresión algebraica para la función de potencia del test


determinado en el ejercicio 1.

4. Al adoptar la distribución de Poisson con parámetro θ para modelar una


población particular, es conveniente proveer un test que permita decidir
sobre la hipótesis nula H0 dentro del sistema

H0 : θ = θ 0
f rente a
H1 : θ = θ0

Para tal efecto determine un test con nivel α basado en una muestra
aleatoria de tamaño n de la citada población.

5. La distribución de Cauchy es un modelo muy singular debido a sus parti-


cularidades de no existencia de sus momentos. ¿La familia de densidades
de Cauchy es una familia que tiene MLR en alguna estadı́stica?

6. Considere la distribución particular de Cauchy

1
fX (x) = ,x ∈ R
π [1 + (x − θ)2 ]

¿Bajo el siguiente sistema de hipótesis es posible determinar un UMP de


nivel α para el juzgamiento de H0 basado en una muestra aleatoria de
tamaño n?.

H0 : θ = 0
f rente a
H1 : θ > 0

7. El modelo Exponencial desplazado, mencionado en los ejercicios del primer


capı́tulo y en un ejemplo de este capı́tulo tiene diversas aplicaciones. En
particular, regido por este modelo resulta algunas veces interesante e-
valuar el hecho de si para un caso individual el desplazameinto es un
elemento significativo dentro del modelado, es decir si es preciso introducir
un componente del parámetro para indicar el desplazamiento, o por el
contrario es inocuo hacerlo y de esta manera simplificar el modelo elegido.
4.11. EJERCICIOS DEL CAPÍTULO 225

En el lenguaje del juzgamiento de hipótesis corresponde al sistema

H0 : θ 1 = 0
f rente a
H1 : θ 1 > 0

Teniendo presente que el parámetro θ = (θ1 , θ2 ) reserva el primer compo-


nente para referirse precisamente al desplazamiento, construya un test de
nivel α para este propósito.

8. Una modalidad caracterı́stica de procedimientos en el Control Estadı́stico


de la Calidad, se ha denominado Muestreo para la aceptación de lotes,
dentro de la cual se menciona un procedimiento particular correspondiente
al juzgamiento de la hipótesis H0 dentro del sistema

H0 : θ < θ 0
f rente a
H1 : θ ≥ θ 0

parámetro cuyo espacio corresponde al intervalo (0, 1) y que representa


la denominada fracción no conforme de materia prima, de productos en
proceso o de productos terminados, según sea el objeto y momento de su
aplicación, que dentro del modelo de Bernoulli corresponde a la probabi-
lidad de éxito. Determine un test de nivel cercano a α y su función de
potencia. Bosqueje la curva de operación OC.

9. Desarrolle un test para el juzgamiento de la homocedasticidad como el


presentado en el numeral 4.4.2, página 191, asumiendo que μ1 y μ2 son
valores conocidos.

10. ¿Cambiará radicalmente el test para homocedasticidad en dos poblaciones


Normales, si se asume que μ1 y μ2 son desconocidos pero iguales?.

11. Determine una expresión para el cálculo del tamaño de muestra apropiado
para el juzgamiento de la hipótesis nula H0 : π = π0 en el sistema

H0 : π = π0
f rente a
H1 : π > π0

por medio de un test construido bajo consideraciones de tamaño de mues-


tra grande, siendo π la probabilidad de éxito o proporción poblacional.

12. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función


de densidad fX (x, θ) = θ(1 − x)θ−1 I(0,1) (x), con θ > 0. Este modelo se
propone como emulador del comportamiento de la fracción no conforme
de la materia prima que recibe cierta compañı́a para utilizarlo como la
226 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

distribución a priori de Θ. Pero previo a ello y dentro del análisis de su


ajuste se desea contar con un test que juzgue la hipótesis nula H0 : θ ≤ θ0
dentro del sistema de hipótesis
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
Determine un test para tal fin.
13. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con fun-
ción
 de densidad Uniforme en el intervalo (0, θ). Fijando el valor k, si
Xn,n , k1n Xn,n es un intervalo confidencial para el parámetro θ, entonces
use este hecho para derivar de allı́ un test para juzgar la hipótesis nula
H0 : θ = θ0 dentro del sistema de hipótesis
H0 : θ = θ 0
f rente a
H1 : θ = θ0
Si no es ası́ desarrolle un test utilizando otros medios para el juzgamiento
de la hipótesis nula en el citado sistema.
14. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función
de densidad Uniforme en el intervalo (θ, θ + 1), con θ ∈ R. Determine un
test para el juzgamiento de la hipótesis nula H0 : θ = 0 dentro del sistema
de hipótesis
H0 : θ = 0
f rente a
H1 : θ > 0

15. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función


de densidad fX (x, θ) = θ exp(−θx)I(0,∞) (x). Determine la función de
potencia de un test para el juzgamiento de la hipótesis nula H0 : θ = 1
dentro del sistema de hipótesis
H0 : θ = 1
f rente a
H1 : θ = 1

16. Determine la función de potencia del test correspondiente al juzgamiento


de la hipótesis nula H0 : μ1 − μ2 ≤ δ0 dentro del sistema de hipótesis
H0 : μ1 − μ2 ≤ δ0
f rente a
H1 : μ1 − μ2 > δ0
4.11. EJERCICIOS DEL CAPÍTULO 227

bajo Normalidad y con base en dos muestras seleccionadas de dos pobla-


ciones independientes y homoscedásticas. Exprese dicha función de po-
tencia en términos de δ0 .
17. Sea (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ), una muestra aleatoria de una población
Normal bivariada. Determine un test para el juzgamiento de la hipótesis
nula H0 : ρ = 0 dentro del sistema de hipótesis

H0 : ρ = 0
f rente a
H1 : ρ = 0

18. La contaminacion de los rı́os es un desastre para la humanidad. El rı́o


Bogotá recibe en casi todo su recorrido desechos que trastornan extraor-
dinariamente la vida del rı́o. Si una autoridad de Salud Pública tiene que
evaluar el nivel de contaminación del rı́o en un punto especial y tomar
decisiones al respecto, y particularmente sobre el contenido promedio de
plomo μ, que no debe exceder μ0 partes por millón por litro de agua,
decisión que debe tomarse a través de un test estadı́stico basado en una
muestra de tamaño n. Lleve a cabo una reflexión sobre los valores del
error del tipo I que deben adoptarse.
19. Muestre que la función de potencia del test τc , correspondiente al Sistema
C para el juzgamiento de la hipótesis nula H0 : θ = μ0 bajo Normalidad y
adoptando el primer supuesto, presentada en la sección 4.3.1, página 172,
cumple las siguientes propiedades:
(a) πτc (θ) es simétrica con respecto a μ0 .
(b) πτc (θ) es decreciente en el intervalo (−∞, μ0 ) y creciente en el inter-
valo (μ0 , ∞).
(c) lim πτc (θ) = 1 y lim πτc (θ) = 1.
θ→−∞ θ→∞

(d) πτc (μ0 ) = α.


20. Desarrolle un test de nivel α para juzgar la hipótesis nula H0 : θ ≤ μ0
frente a la hipótesis alterna H1 : θ > μ0 bajo Normalidad y conocido el
valor de σ. Muestre que la función de potencia del test es
 √ 
n(θ − μ0 )
πτ (θ) = Φ −z1−α +
σ

función que cumple las siguientes propiedades:


(a) πτ (θ) es creciente.
(b) lim πτ (θ) = 0 y lim πτ (θ) = 1.
θ→−∞ θ→∞

(c) πτ (μ0 ) = α.
228 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

21. Muestre que la expresión algebraica que permite el cálculo del valor p al
utilizar el test τc en el juzgamiento de la hipótesis nula H0 : μ = μ0 frente
a la hipótesis alterna H1 : μ = μ0 , bajo Normalidad asumiendo el segundo
supuesto, es

p = 2 1 − F(n−1) (|tc |)
siendo F(n−1) (x) la función de distribución de una variable aleatoria X,
con distribución t con (n − 1) grados de libertad.
22. Muestre que la expresión algebraica que permite el cálculo del valor p al
utilizar el test τ en el juzgamiento de la hipótesis nula H0 : μ ≤ μ0 frente a
la hipótesis alterna H1 : μ > μ0 , bajo Normalidad asumiendo desconocido
el valor del promedio poblacional y eligiendo  = δ = α2 es:
 2 2   2 2 
σ0 χ1− α σ0 χ α
πτ (θ) = 1 − F(n−1) 2
+ F (n−1)
2

σ2 σ2

siendo F(n−1) (x) la función de distribución de una variable aleatoria X,


con distribución Ji-cuadrado con (n − 1) grados de libertad. Deduzca las
propiedades de esta función de potencia.
23. Con respecto al ejercicio anterior, determine la expresión para el cálculo
del correspondiente valor p.
24. Muestre que la expresión algebraica de la función de potencia, a utilizar
el test τ en el juzgamiento de la hipótesis nula H0 : σ 2 ≤ σ02 frente a la
hipótesis alterna H0 : σ 2 > σ02 , bajo Normalidad asumiendo desconocido
el valor promedio poblacional es:
πτ (θ) = 1 − F(n−1) (tc )
siendo F(n−1) (x) la función de distribución de una variable aletaoria X,
con distribución Ji-cuadrado con (n − 1) grados de libertad. Deduzca las
propiedades de esta función de potencia.
25. Con respecto al ejercicio anterior, determine la expresión para el cálculo
del correspondiente valor p.
26. Se cuenta con recursos económicos únicamente para seleccionar N = n+m
unidades estadı́sticas para el juzgamiento de la hipótesis nula H0 : μ1 = μ2
concerniente a la “comparación de los promedios poblacionales”de dos
poblaciones independientes regidas por el modelo Gaussiano y conocidos
los valores de σ12 y σ22 , frente a la hipótesis alterna H1 : μ1 = μ2 . ¿Cómo
deben elegirse los tamaños de las muestras n y m para mantener las ca-
racterı́sticas del test desarrollado para el mencionado juzgamiento?.
27. Desarrolle un test para el juzgamiento de la hipótesis nula H0 : μ1 = 2μ2
bajo la regencia del modelo Gaussiano correspondiente a dos poblaciones
independientes de las cuales se conocen los valores de σ12 y σ22 , frente a la
hipótesis alterna H1 : μ1 = 2μ2 .
4.11. EJERCICIOS DEL CAPÍTULO 229

28. ¿Existe algún impedimento en el desarrollo de un test para el juzgamiento


de una hipótesis nula más general, que la del ejercicio anterior,
H0 : μ1 = cμ2 , siendo c > 0 una constante conocida?.

29. Determine un test secuencial para el juzgamiento de la hipótesis nula H0 :


θ = θ0 , en el sistema de hipótesis simples

H0 : θ = θ 0
f rente a
H1 : θ = θ 1

basado en una muestra aleatoria de una población con distribución de


Poisson de parámetro θ.

30. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-


ción Beta con θ1 = θ2 = θ. Determine un test más potente para el
juzgamiento de la hipótesis nula H0 : θ = 1, dentro del sistema de hipótesis

H0 : θ = 1
f rente a
H1 : θ = 2

31. Determine un test más potente para juzgar la hipótesis nula H0 : θ = 1


dentro del sistema de hipótesis del ejercicio anterior, si el modelo asumido
es un modelo cuya función de densidad es

fX (x, θ) = θxθ−1 I(0,1) (x), θ>0

32. Teniendo en cuenta el ejercicio anterior, muestre que el test uniforme más
potente para juzgar la hipótesis nula dentro del sistema,

H0 : θ = 1
f rente a
H1 : θ < 1

está basado en una estadı́stica suficiente para θ.

33. En un estudio de opinión se realizaron 6348 llamadas telefónicas y la firma


encuestadora informa que el 25% de las llamadas fueron fallidas y que por
lo tanto los resultados se refieren a las entrevistas realizadas a personas
mayores de 18 años correspondiente al restante porcentaje. El auditor
estadı́stico considera que el porcentaje de no respuesta está muy elevado,
y propone juzgar la afirmación de la compañı́a por medio de una muestra
seleccionada de los registros de las llamadas realizadas por los entrevista-
dores para comprobar la no respuesta. Puede entonces asumirse el modelo
230 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS

Bernoulli con parámetro θ, y juzgar la hipótesis nula H0 : θ = 14 , dentro


del sistema de hipótesis:
1
H0 : θ =
4
f rente a
1
H1 : θ <
4
Determine un test que permita el juzgamiento de esta hipótesis.
34. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribu-
ción Gaussiana de valor esperado cero y varianza θ. ¿Existe un test uni-
forme más potente para juzgar la hipótesis nula H0 : θ = θ0 , frente a la
hipótesis alterna H1 : θ = θ0 ?.
Bibliografı́a

[1] Arthanari, T.S. Mathematical Programming in statistics / T. S. Arthanari,


Yadolah Dodge. New York: John Wiley. 1981 xviii, 413 p. (Wiley series in
probability and mathematical statistics)
[2] Ash B. Robert. Basic Probability Theory. 1970 John Wiley & Sons, Inc.
[3] Barnett, Victor David Comparative statistical inference / Vic Barnett. Lon-
don : John Wiley. 1975 xv, 287 p. (Wiley series in probability and mathe-
matical statistics)
[4] Barndorff-Nielsen. Ole Information and exponential families: in statistical
theory / O. Barndorff-Nielsen. New York: John Wiley. 1978 ix, 238 p.
(Wiley series in probability and mathematical statistics)
[5] Bartoszynski Robert. Probability and Statistical Inference / Robert Bar-
toszynski and Magdalena Niewiadomska-Bugaj. (Wiley series in probability
and mathematical statistics) 1996.
[6] Bernardo, José Miguel. Bayesian theory / José M. Bernardo, Andrain F.M.
Smith. New York: John Wiley. 1994 xiv, 586 p. (Wiley series in probability
and mathematical statistics)
[7] Berger, James O. Statistical decision theory and Bayesian analysis / James
O. Berger. 2a ed. New York: Springer-Verlag. 1985 xvi, 617 p.
[8] Brunk, H.D. An introduction to mathematical statistics. 2a ed. Waltham,
Mass. Blaisdell. 1965 429 p. (Blaisdell Book in Pure and Applied Mathe-
matics)
[9] Beard, Robert Eric. Risk theory: the stochastics basis of insurance / R.E.
Beard, T. Pentikainen, E. Pesonen. 3a ed. London: Chapman and Hall.
1984 xvii, 408 p. (Monographs on statistics and applied probability)
[10] Cramer, Harald. Métodos matemáticos de estadı́stica. Madrid: Aguilar.
1960. 660 p.
[11] Cramer, Harald. Elementos de la teoria de probabilidades y algunas de sus
aplicaciones / tr. Anselmo Calleja. 6a ed. Madrid: Aguilar. 1972 xvi, 321
p.

231
232 BIBLIOGRAFÍA

[12] Daykin, Chris D. Practical risk theory for actuaries / C.D. Daykin, T.
Pentikainen, M. Pesonen. New York: Chapman and Hall. 1944 xxi, 546 p.
(Monographs on Statistics and Applied Probability; 53)

[13] De Groot Morris. Probabilidad y Estadı̀stica. Addison-Wesley Iberoameri-


cana. 1988.

[14] Dorea, Chang Chung Yu. Teoria assintotica das estatisticas / Chang C.Y.
Dorea. Rio de Janeiro: Instituto de Matematica Pura e Aplicada. 1995.
79 p.

[15] Dudewics Edward J. Modern Mathematical Statistics / Edward J. Dudewics


and Satya N. Mishra (Wiley series in probability and mathematical statis-
tics). 1998

[16] Edwards, Anthony William Fairbank. Likelihood: an account of the satisti-


cal concept of likelihood and its application to scientific inference / A.W.F.
Edwards. Cambridge: Cambridge University Press. 1972 xv, 235 p.

[17] Ellis, Richard B. Statistical inference: basic concepts / Richard B. Ellis.


Englewood Cliffs: Prentice-Hall. 1975 xiv, 258 p.

[18] Ekeblad, Frederick A. The statistical method in business, applications of


probability and inference of business and other problems. New York: John
Wiley. 1962. 791 p.

[19] Feller, William. An introduction to probability theory and its applications.


3a ed. New York: John Wiley. 1968-71 (Wiley series in probability and
mathematical statistics)

[20] Fisz, Marek. Probability theory and mathematical statistics. 3a ed. New
York: John Wiley. 1967 xvi, 677 p. (Wiley series in probability and math-
ematical statistics). (Wiley publication in mathematical statistics)

[21] Freund, John E. Mathematical statistics. Englewood Cliffs: Prentice-Hall.


1962. 390 p.

[22] Freeman, Harold. Introduction to statistical inference. Reading, Mass.


Addison-Wesley. 1963. 445 p. (Addison-Wesley series in statistics)

[23] Guenther, William C. Concepts of statistical inference. New York:


McGraw-Hill. 1965. 353 p.

[24] Gmurman, Vladimir Efimovich. Teoria de las probabilidades y estadı́stica


matemática / V.E. Gmurman. tr Akp Grdian. Moscú: Mir. 1974. 387 p.

[25] Gmurman, Vladimir Efimovich. Problemas de la teoria de las probabilidades


y de estadı́stica matemática / V.E. Gmurman. tr Akp Grdian. Moscú: Mir.
1975. 374 p.
BIBLIOGRAFÍA 233

[26] Hacking, Ian. The emergence of probability: a philosophical study of early


ideas about probability, induction and statistical inference / Ian Hacking.
Cambridge: Cambridge University Press. 1987. 209 p.
[27] Hettmansperger, Thomas P. Statistical inference based on ranks. New York:
John Wiley. 1984 xviii. 323 p. (Wiley series in probability and mathematical
statistics)
[28] Hogg, Robert V. Introduction to mathematical statistics / Robert V. Hogg,
Allen T. Craig. 5a ed. Prentice Hall. 1995. 438 p.
[29] Hoel Paul G. Introduction to mathematical statistics. 2a ed. New York:
John Wiley. 1954. 331 p.
[30] Keeping E.S. Introduction to statistical inference. New York: D. Van Nos-
trand. 1962. 451 p.
[31] Larson, Harold J. Introduction to probability theory and statistical inference.
Harold J. Larson. New York: John Wiley. 1974 xi, 430 p. (Wiley series in
probability and mathematical statistics)
[32] Lehmann, Erich Leo. Theory of point estimation. New York: John Wiley.
1983 xii, 506 p. (Wiley series in probability and mathematical statistics)
[33] Mood, Alexander McFarlane. Introduction to the theory of statistics.
Alexander M. Mood, Franklin A. Graybill, Duane C. Boes. 3th ed. / Inter-
national ed. Signapore: McGraw-Hill. 1974 xvi, 564 p. (McGraw-Hill series
in probability and statistics)
[34] Muirhead, Robb John. Aspects of multivariate statistical theory. New York:
John Wiley. 1982 xix, 673 p. (Wiley series in probability and mathematical
statistics)
[35] Parzen, Emanuel. Modern probability theory and its applications. New York:
John Wiley. 1971 xv, 464 p. (Wiley Publication in Mathematical Statistics)
[36] Randles, Ronald H. Introduction to the theory of nonparametric statistics.
Ronald H. Randles, Douglas A. Wolfe. New York: John Wiley. 1979 xiii,
450 p. (Wiley series in probability and mathematical statistics)
[37] Rohatgi, Vijak K. Statistical inference / Vijak K. Roahtgi. New York: John
Wiley. 1984 xiv, 940 p. (Wiley series in probability and mathematical sta-
tistics)
[38] Serfling, Robert J. Approximation theorems of mathematical statistics.
Robert J. Serfling. New York: John Wiley. 1980 xiv, 371 p. (Wiley series
in probability and mathematical statistics)
[39] Tanner, Martin Abba. Tools for statistical inference: methods for the explo-
ration of posterior distributions and likelihood functions. 2a ed. New York:
Springer-Verlag. 1993 ix, 156 p. (Springer series in statistics)
234 BIBLIOGRAFÍA

[40] Tucker, Howard G. An introduction to probability and mathematical statis-


tics. New York: Academic Press. 1967. 228 p.
[41] Tennant-Smith. J. Estadı́stica: teorı́a, problemas y aplicaciones en BASIC.
J. Tennant-Smith. tr. Manuel Urrutia Avisrror. Madrid: Anaya Multime-
dia. 1986. 218 p.
[42] Thomasian, Aram J. The structure of probability theory with applications.
New York: McGraw-Hill. 1969. 746 p. (McGraw-Hill Series in Probability
and Statistics)
[43] Weatherburn, C.E. A first course in mathematical statistics. 2a ed. Cam-
bridge: Cambridge University Press. 1962. 277 p.
[44] Wilks, S.S. Mathematical statistics. Princeton: Princeton University Press.
1950. 284 p.
[45] Zacks, Shelemyahu. The theory statistical inference. New York: Wiley. 1971
xiii, 609 p. (Wiley series in probability and mathematical statistics)
Índice de Materias

análisis cota, 87
de varianza a una vı́a, 185 desigualdad de, 87
criterios
Basu de exclusión, 5
teorema de, 83 de inclusión, 5
Behrens-Fisher curva
problema de, 184 caracterı́stica
bondad de operación, 156
del ajuste, 209 CO
del test, 156
caso
regular
de estimación, 86 desigualdad
completez, 90 de Cramer-Rao, 87
componente distribución
de escala, 122 Beta, 104
de localización, 122 de Cauchy, 224
concentración, 69 de Gumbel, 107
condiciones de regularidad de la función de distribución empı́rica,
cumplimiento de, 86 21
confianza, 116 de la mediana muestral, 20
consistencia, 73 de Laplace, 107
contorno, 75 de las estadı́sticas de orden, 19
convergencia de Pareto, 43, 105, 145
casi segura, 10 de Poisson, 106
con probabilidad uno, 10 de Zipf, 105
débil, 10 del rango, 20
en distribución, 11 del semirango, 20
en media cuadrática, 11 exponencial
en medida, 10 desplazada, 43
en momento de orden r, 11 exponencial doble, 107
en probabilidad, 10 Gama, 106
en valor esperado, 11 Gaussiana, 106
estocástica, 10 muestral, 9
cota original
de Cramer-Rao, 87 de las observaciones, 9
Cramer-Rao reducida, 9

235
236 ÍNDICE DE MATERIAS

Uniforme discreta, 113 asintóticamente insesgado, 71


Zeta, 105 BAN, 74
Bayesiano, 67
eficiencia BLUE, 110
asintótica, 89 BRUE, 89
de un estimador, 89 CAN, 74
relativa, 88 CANE, 74
asintótica, 89 consistente
equivalencia, 82 débil, 73
error en error cuadrático medio, 73
cuadrático medio, 70 simple, 73
del tipo I, 152 de mı́nimos cuadrados, 98
del tipo II, 152 eficiencia de un, 89
máximo eficiente, 89
admisible, 139 el más concentrado, 70
espacio insesgado, 71
de las observaciones, 75 insesgado de varianza uniforme-
del parámetro, 50 mente mı́nima, 84
estadı́stica, 7 L, 97
auxiliar, 83 M, 98
de primer orden, 83 más concentrado, 70
completa, 90 máximo-verosı́mil, 52
contorno de la, 75 MLE, 52
de orden, 18 Pitman
de Pearson, 210–212 el más concentrado, 70
natural, 81 más concentrado, 70
k-dimensional, 82 QMLE, 60
suficiente, 81 robusto, 96
suficiente, 75, 77 UMVUE, 84
minimal, 79 uniformemente
estadı́sticas mejor, 84
conjuntamente estimar, 8
suficientes, 78
equivalentes, 82 familia
estimación, 8 de densidades
Bayesiana, 65 cerrada bajo muestreo, 67
por intervalo, 140 completa, 90
cuasimáximo-verosı́mil, 60 conjugada, 67
de la proporción poblacional, 127 de densidades Pearsoniana, 79
en muestras censuradas, 59 exponencial
máximo-verosı́mil, 52 de densidades k-paramétrica,
por intervalo, 116 80
estimaciones, 9 p-dimensional de densidades,
estimador, 9 80
asintóticamente unidimensional de densidades,
más concentrado, 74 80
ÍNDICE DE MATERIAS 237

Fisher método de Pearson, 209


información de, 85, 86 secuencial, 200
Fisher-Neyman
criterio de factorización de, 77, Khintchine
78 teorema de, 14
función Kolmogorov-Smirnov
crı́tica juzgamiento del ajuste, método
del test aleatorizado, 150 de, 214
del test no aleatorizado, 152 Koopman-Darmois
de cuasiverosimilitud, 60 familia o clase
de densidad p-dimensional, 80
a posteriori, 66
a priori, 65 Lévy
de distribución teorema de, 11, 12
empı́rica, 18 lı́mite
muestral, 18 confidencial
de potencia, 155 inferior, 116
de verosimilitud, 51 inferior unilateral, 116
de la muestra, 52 superior, 116
superior unilateral, 116
Glivenko-Cantelli lı́mite central
teorema de, 22 Lindeberg-Feller, teorema del,
16
hipótesis Lindeberg-Lévy, teorema del, 15
alterna, 149 Lehmann-Scheffé
compuesta, 149 teorema de, 93
estadı́stica, 148 Ley
juzgamiento de una, 148 débil
nula, 149 de los grandes números, 14
simple, 149 fuerte
sistema de, 149 de los grandes números, 15
homoscedasticidad, 182, 184
juzgamiento de la, 191 máximo
de la muestra, 18
información método
de Fisher, 85, 86 de la variable pivote, 117
intervalo de los momentos, 61
aleatorio, 116 de máxima verosimilitud, 51
Bayesiano, 141 por analogı́a, 64
confidencial, 116 mı́nimo
unilateral, 116 de la muestra, 18
mediana, 25
juzgamiento muestral, 18
del ajuste, 208 modelo, 6, 49, 215
método de Kolmogorov-Smirnov, Beta, 104
214 de Pareto, 43, 105
238 ÍNDICE DE MATERIAS

de Poisson, 106 de invarianza de un MLE, 58


exponencial probabilidad
desplazado, 43 de error del tipo I, 153
Gama, 106 procedimiento
Gaussiano, 106 robusto, 96
original, 9 promedio
probabilı́stico, 49 “windsordizado”, 97
reducido, 9 de la muestra, 9
Zeta, 105 muestral, 9
momentos poblacional, 13
de estadı́sticas de orden, 23 recortado, 97
muestrales proporción
centrales, 9 muestral, 55
ordinarios, 9 poblacional, 127
muestra, 5 proporción poblacional
aleatoria, 6 estimación de la, 127
bivariada, 128 pruebas
ordenada, 18 de Normalidad, 209
censurada, 59
del tipo I, 59 rango
del tipo II, 59 muestral, 18
pareada, 128 Rao-Blackwell
piloto, 139 teorema de, 84
tamaño, 6 razón
tamaño de la, 198 generalizada de verosimilitudes,
muestra simple 160
tamaño de la, 139 MLR, 167
muestras censuradas monótona de verosimilitudes, 167
estimación, 59 región
confidencial, 117
Neyman Pearson crı́tica, 150
lema de, 159 tamaño de la, 153
nivel de aceptación, 150
confidencial, 116 de rechazo, 150
del test, 153 robustez, 96

parámetro semirango
de escala, 122 muestral, 18
de localización, 122 sesgo
natural, 81 del estimador, 71
Pearson suficiencia, 75
estadı́stica de, 210–212
juzgamiento del ajuste, método tamaño
de, 209 de la muestra, 6, 198
población, 5 de la muestra simple, 139
principio de la región crı́tica, 153
ÍNDICE DE MATERIAS 239

del test, 153


muestral, 6
test, 150
aleatorizado, 150
función crı́tica del, 150
consistente, 158
curva CO del, 156
de razón generalizada de vero-
similitudes, 163
de razón simple de verosimili-
tudes, 159
insesgado, 156
LRT, 163
más potente, 158
nivel del, 153
no aleatorizado, 150
función crı́tica del, 152
secuencial
de razón de verosimilitudes,
201
tamaño del, 153
UMP, 165
uniformemente más potente, 165

unidades
estadı́sticas, 5

valor p, 169
variable
aleatoria
contaminada, 97
pivote, 117
pivote, 117
general, 120
método de la, 117
varianza
mı́nima, 83
muestral, 9

Wald
ecuación de, 206
Welch
solución de, 184

También podría gustarte