Inferencia Estadistica Libro

Inferencia Estadı́stica
J. Humberto Mayorga A.
Profesor Asociado
Departamento de Estadı́stica - Facultad de Ciencias
Universidad Nacional de Colombia

2
Índice General
Prólogo iii
Introducción v
1 DISTRIBUCIONES MUESTRALES 1
1.1 La Inferencia estadı́stica, un soporte epistemológico . . . . . . . . 1
1.2 Preliminares en la Inferencia estadı́stica . . . . . . . . . . . . . . 4
1.3 Preliminares en convergencia de variables aleatorias . . . . . . . 9
1.4 Caracterı́sticas generales de algunas estadı́sticas . . . . . . . . . . 12
1.5 Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.1 Distribución de las estadı́sticas de orden . . . . . . . . . . 19
1.5.2 Distribución del rango, semirango y mediana muestrales . 20
1.5.3 Distribución de la función de distribución empı́rica . . . . 21
1.6 Momentos de estadı́sticas de orden . . . . . . . . . . . . . . . . . 23
1.7 Demostración de los teoremas del capı́tulo . . . . . . . . . . . . . 25
1.8 Ejercicios del capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . 42
2 ESTIMACIÓN PUNTUAL DE PARÁMETROS 49

2.1 Métodos clásicos para construir estimadores . . . . . . . . . . . . 51
2.1.1 El método de máxima verosimilitud . . . . . . . . . . . . 51
2.1.2 El método de los momentos . . . . . . . . . . . . . . . . . 61
2.1.3 El método por analogı́a . . . . . . . . . . . . . . . . . . . 64
2.1.4 Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . 65
2.2 Criterios para examinar estimadores . . . . . . . . . . . . . . . . 69
2.2.1 Concentración, un requisito de precisión . . . . . . . . . . 69
2.2.2 Consistencia, un requisito ligado al tamaño de la muestra 73
2.2.3 Suficiencia, un requisito de retención de información . . . 75
2.2.4 Varianza mı́nima, un requisito de máxima precisión . . . 83
2.2.5 Completez, un requisito de la distribución muestral . . . . 90
2.2.6 Robustez, un requisito de estabilidad . . . . . . . . . . . . 96
i
ii ÍNDICE GENERAL
3 ESTIMACIÓN POR INTERVALO DE PARÁMETROS 115

3.1 Conceptos preliminares . . . . . . . . . . . . . . . . . . . . . . . . 116
3.2 El método de la variable pivote . . . . . . . . . . . . . . . . . . . 117
3.3 Estimación de promedios, bajo Normalidad . . . . . . . . . . . . 124
3.3.1 Intervalos confidenciales para el promedio de una población124
3.3.2 Estimación de la proporción poblacional . . . . . . . . . . 127
3.3.3 Intervalo confidencial para la diferencia de promedios basa-
do una muestra pareada . . . . . . . . . . . . . . . . . . . 128
3.3.4 Intervalos confidenciales para la diferencia de promedios
en poblaciones independientes . . . . . . . . . . . . . . . . 129
3.4 Estimación de varianzas, bajo Normalidad . . . . . . . . . . . . . 131
3.4.1 Intervalos confidenciales para la varianza de una población 131
3.4.2 Intervalos confidenciales para el cociente de varianzas de
dos poblaciones independientes . . . . . . . . . . . . . . . 134
3.5 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 137
3.6 Tamaño de la muestra simple bajo Normalidad . . . . . . . . . . 139
3.7 Estimación Bayesiana por intervalo . . . . . . . . . . . . . . . . . 140
4 JUZGAMIENTO DE HIPÓTESIS 147

4.1 Elementos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 148
4.2 Tests más potentes . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.3 Juzgamiento de hipótesis sobre promedios, bajo Normalidad . . . 172
4.3.1 Juzgamiento de la hipótesis nula H0 : μ = μ0 . . . . . . . 172
4.3.2 Juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0 . . . . 180
4.4 Juzgamiento de hipótesis sobre varianzas, bajo Normalidad . . . 189
4.4.1 Juzgamiento de la hipótesis nula H0 : σ 2 = σ02 . . . . . . . 189
4.4.2 Juzgamiento de homoscedasticidad . . . . . . . . . . . . . 191
4.5 Juzgamiento de proporciones . . . . . . . . . . . . . . . . . . . . 193
4.6 Ejemplos numéricos de aplicación . . . . . . . . . . . . . . . . . . 196
4.7 Tamaño de la muestra . . . . . . . . . . . . . . . . . . . . . . . . 198
4.8 Juzgamiento secuencial . . . . . . . . . . . . . . . . . . . . . . . . 200
4.9 Juzgamiento del ajuste . . . . . . . . . . . . . . . . . . . . . . . . 208
4.9.1 Juzgamiento del ajuste por el método de Pearson . . . . . 209
4.9.2 Juzgamiento del ajuste por el método de Kolmogorov-
Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
Prólogo
La escritura de este libro siempre estuvo animada por el deseo obstinado de

secundar el trabajo que realiza el estudiante tanto en el salón de clase como
fuera de él; pues entiendo que en definitiva es el estudiante quien aprehende los
conceptos como fruto de sus quehaceres académicos, conceptos inducidos más
por sus dudas, por sus dificultades y por algunas contradicciones con algunos de
sus preconceptos, que por alguna exposición frente al tablero. En mi criterio, el
profesor como acompañante en la formación profesional, se convierte solamente
en orientador, animador y crı́tico.
Con ese espı́ritu quise que este libro se constituyese en una juiciosa pre-
paración de clase de la asignatura Inferencia Estadı́stica, preparación que ha
acopiado las memorias de cada una de las oportunidades en las cuales fui el
el encargado del curso a través de mis años como docente en la Universidad
Nacional de Colombia. De ese acopio es profuso lo desechado y lo corregido,
pues las preguntas de los estudiantes confundidos, las preguntas inteligentes y las
respuestas sobresalientes como las equivocadas en las evaluaciones, generalmente
sucitaron la reflexión sobre las formas y contenidos de los guiones de la clase.
No pretendo publicar un texto mas, pues los hay de una calidad inmejorable,
algunos clásicos cuya consulta es obligada, otros de reciente edición que han in-
corporado nuevos desarrollos conceptuales. Pretende el texto apoyar el trabajo
académico que se realiza en el curso, especialmente con el propósito de opti-
mizar el tiempo y la calidad de la exposición de los temas, dando paso a la uti-
lización del tablero acompañado de la tecnologı́a audiovisual como posibilidad
para profundizar algunos de los temas y como medio para tratar las pregun-
tas e inquietudes estudiantiles y no como instrumento transcriptor de frases y
gráficas.
En este libro expreso mis apreciaciones personales semánticas y conceptuales
promovidas por la concepción que tengo sobre la Estadı́stica y particularmente
sobre la Inferencia estadı́stica, concepción que he madurado y he hecho propia,
a partir de las reflexiones con profesores del Departamento de Estadı́stica, a
partir de discusiones informales y dentro de eventos académicos. Su contenido
y organización responden a la forma tradicional como he realizado el curso, a
las limitaciones de un semestre académico para su desarrollo y a los requisitos
curriculares exigidos a los estudiantes que lo cursan.
Fue la circunstancia de mi año sabático, disfrutado durante el año 2002, la
que hizo posible la redacción y digitación de este texto, pues fueron múltiples
iii
iv PRÓLOGO
las ocasiones fallidas de organizar en un libro el material de la clase, debido a

las ocupaciones derivadas de mis compromisos académicos, administrativos y de
servicios de asesorı́a estadı́stica que la Universidad me encargó llevar a cabo.
Finalmente, creó que debo agradecer tanto a mis alumnos pues ellos son el
motivo para organizar las ideas que presento entorno a la Inferencia estadı́stica,
como a la Universidad Nacional de Colombia que aceptó como plan de activi-
dades de mi año sabático, la elaboración de este texto.
Introducción
Este texto ha sido concebido para ser fundamentalmente un texto guı́a en

el desarrollo de la asignatura Inferencia Estadı́stica, que cursan tanto los es-
tudiantes del pregrado en Estadı́stica como los estudiantes de la Carrera de
Matemáticas. Puede apoyar igualmente algunos temas de la asignatura Es-
tadı́stica Matemática de la Maestrı́a en Estadı́stica. El requisito natural e in-
mediato para abordar los temas de cada uno de los capı́tulos del libro, es un
curso de Probabilidad, y por supuesto los cursos de Cálculo. Consta de cua-
tro capı́tulos que pueden desarrollarse durante un semestre académico con seis
horas semanales de clase tradicional.
He adaptado traducciones de uso corriente en los textos de Estadı́stica a
formas y términos con un mejor manejo del idioma y que semánticamente co-
rrespondan con mayor fidelidad al concepto que denominan. Igualmente hago
precisión sobre algunas expresiones usuales para mayor claridad conceptual.
Cada capı́tulo está estructurado en tres partes: exposición de los temas,
demostraciones de los teoremas y la relación de los ejercicios correspondientes.
Esto no significa que el manejo del texto deba llevarse en el orden mencionado.
He querido organizarlo ası́, con el objeto de que la presentación de los temas
exhiba una forma continua y que las demostraciones y los ejercicios tengan su
sitio especial propio. Los ejercicios no están ordenados ni por su complejidad,
ni por el tema tratado, para no encasillarlos. El estudiante se acerca a un
ejercicio con información y trabajo previos, y es con su organización de ideas
y búsqueda de caminos que debe evaluar si con los elementos estudiados hasta
un cierto punto le es posible abordar el ejercicio particular; sin embargo, el
profesor puede sugerir la realización de alguno o algunos ejercicios cuando haya
culminado un tema o parte de él.
El primer capı́tulo como fundamento del texto, ubica sintéticamente a la
Inferencia Estadı́stica dentro del problema filosófico secular de la inducción.
Retoma el tema de la convergencia de sucesiones de variables aleatorias, y ex-
pone las ideas preliminares de la Inferencia Estadı́stica. El segundo capı́tulo
presenta los métodos corrientes de construcción de estimadores y los criterios
para examinar las estadı́sticas en su calidad de estimadores.
En el tercer capı́tulo se presenta el método de la variable pivote para cons-
truir intervalos confidenciales y se hace algún énfasis en los intervalos confiden-
ciales bajo Normalidad. En el cuarto capı́tulo se adopta la expresión juzgamien-
to de hipótesis a cambio de prueba, docimasia o cotejo, porque esta acepción
v
vi INTRODUCCIÓN
está más cerca del sentido de la toma de decisiones estadı́sticas e igualmente se

da un espacio importante en el juzgamiento de hipótesis bajo Normalidad.
Capı́tulo 1
DISTRIBUCIONES
MUESTRALES
“El conocimiento que tenemos del mundo está basado en la elaboración de un
modelo de la realidad, modelo que puede cotejarse con la experiencia tan sólo
de manera parcial y ocasionalmente... Este modelo se construye teniendo en
cuenta la utilización que hacemos del mismo...”
J. Bruner, “On cognitive growth”
Antes de entrar en materia, es preciso destinar unos pocos párrafos para

introducir un bosquejo del contexto en el cual la Inferencia estadı́stica puede
ubicarse, más como exposición de ideas generales que el pretender una disquisi-
ción filosófica al respecto. Ese contexto está contenido dentro de un problema
más general de carácter epistemológico, que el lector puede profundizar con las
copiosas publicaciones sobre el tema. Posteriormente, por tratarse de uno de
los fundamentos sobre el cual la Inferencia Estadı́sitica erige algunos de sus
conceptos, se incluye la sección 1.3 a manera de un extracto de la convergen-
cia de sucesiones de variables aleatorias, tema integrante de un curso previo de
Probabilidad, pero que se retoma por su carácter y por su utilidad próxima.
1.1 La Inferencia estadı́stica, un soporte episte-

mológico
La inferencia inductiva, procedimiento que utiliza la lógica como una forma
de generalizar a partir de hechos particulares o a partir de la observación de
un número finito de casos, es uno de los temas que ha ocupado a filósofos y
cientı́ficos de todos los tiempos, desde la época de Aristóteles, tres siglos antes
de Cristo, hasta la actualidad.
1
2 CAPÍTULO 1. DISTRIBUCIONES MUESTRALES
Varios filósofos antiguos formados en el empirismo gnoseológico, convencidos

de que la observación era la única fuente segura de conocimiento, fueron los
primeros en proponer la inducción o inferencia inductiva como método lógico.
Tempranamente la inducción se convierte en un tema de mucha controversia que
aún se mantiene; si para Aristóteles, quien planteó inicialmente el procedimiento
inductivo, la Ciencia es “conocimiento demostrativo”, por el contrario para
Sexto Empı́rico, uno de los filósofos representantes del Escepticismo, la Ciencia
es “comprensión segura, cierta e inmutable fundada en la razón”. Ası́, mientras
Sexto Empı́rico rechaza la validez de la inducción, Filodemo de Gadara, filósofo
seguidor del Epicureı́smo, defiende la inducción como método pertinente.
Y la controversia, llamada el problema de la inducción o también conocida
como el “problema de Hume”, reside precisamente en que mientras la inferencia
deductiva avala la transferencia de la verdad de las premisas a la conclusión,
es decir, a partir de premisas verdaderas todas deducción es cierta, a costa de
no incorporar nada al contenido de las premisas, la inducción por su parte que
va más allá de las premisas, por su carácter amplificador, puede dar lugar a
conclusiones falsas; en pocas palabras la controversia se centra en la validez
que puedan tener los razonamientos inductivos, puesto que las conclusiones por
medio de la inducción no siempre serán verdaderas.
Algunos pensadores medievales también se preocuparon de la inducción. El
inglés Robert Grosseteste al utilizar para su trabajo cientı́fico los métodos apli-
cados por sus discı́pulos de Oxford en Óptica y Astronomı́a, reabre en la Edad
Media el tema de la inducción; si bien varios filósofos de la época orientaron
sus reflexiones hacia los métodos inductivos, los ensayos y trabajos de Francis
Bacon inspirados en la reorganización de las ciencias naturales, constituyeron el
apogeo del método inductivo.
No obstante, para Hume las leyes cientı́ficas no tienen carácter universal, es
decir son válidas únicamente cuando la experiencia ha mostrado su certidumbre
y tampoco tiene la función de la previsibilidad. Popper, filósofo de la Ciencia,
conocido por su teorı́a del método cientı́fico y por su crı́tica al determinismo
histórico, en el mismo sentido de Hume, afirma que no puede existir ningún
razonamiento válido a partir de enunciados singulares a leyes universales o a
teorı́as cientı́ficas. Mas recientemente, Bertrand Russell mantiene la posición de
Hume de la invalidez de la inducción, pero considera que ella es el camino para
incrementar la probabilidad, como grado racional de creencia, de las generaliza-
ciones.
La conocida Ley débil de los grandes números incluida en la cuarta parte
del trabajo más sobresaliente de Jacob Bernoulli, Ars Conjectandi, publicado
después de su muerte en el año 1713, y el también conocido teorema de Bayes
publicado cincuenta años más tarde, trajeron nuevos elementos en la discusión al
constituirse en argumentos matemáticos que sustentan la posibilidad de inferir
probabilidades desconocidas a partir de frecuencias relativas. Sin embargo para
Popper, sustituir la exigencia de verdad por la validez probabilı́stica para las
inferencias inductivas no lo hace un procedimiento legı́timo.
Durante las primeras décadas del siglo pasado, a raı́z de los importantes
avances de la Ciencia ocurridos a finales del siglo XIX y a principios del siglo
1.1. LA INFERENCIA ESTADÍSTICA, UN SOPORTE EPISTEMOLÓGICO 3
XX, avances que no podı́an pasar desapercibidos para los pensadores, obligaron
a los filósofos a revisar muchas de las ideas de los clásicos y es ası́ como un grupo
de hombres de ciencia, matemáticos y filósofos, se organizan en 1922 en torno
al fı́sico Moritz Schlick, profesor de filosofı́a de la ciencia de la Universidad de
Viena, convirtiéndose en un movimiento filosófico internacional, principal pro-
motor del positivismo lógico, (también llamado neopositivismo, neoempirismo
o empirismo lógico), movimiento conocido como Cı́rculo de Viena, conformado
entre otros, además de Schlick, por Hahn, Frank, Neurath, Kraft, Feigl, Wais-
mann, Gödel, y Carnap; Einstein, Russell y Wittgenstein eran considerados
como miembros honorı́ficos y Ramsey y Reinchenbach como miembros simpati-
zantes del mismo.
Este movimiento filosófico se dedicó a muchos y variados temas de la Filosofı́a
de la Ciencia, y por supuesto al problema de la inducción. En sı́ntesis se puede
afirmar que el hilo conductor de las ideas del Cı́rculo de Viena fue la defensa
de una visión cientı́fica del mundo a través de una ciencia unificada ligado al
empleo del análisis lógico en el sentido de Russell.
Pero respecto al tema de la inducción, el Cı́rculo no cerró la discusión; concre-
tamente para Popper y sus seguidores, la escuela del refutacionismo, el método
cientı́fico no utiliza razonamientos inductivos, sino razonamientos hipotético-
deductivos, ası́ se acopien datos y hechos particulares dentro del procedimiento
de evaluación de una hipótesis que dan paso a una conclusión de carácter general,
no existe como tal un razonamiento inductivo. Para el refutacionismo la ciencia
se concibe como una sucesión de conjeturas y refutaciones: se proponen conje-
turas para explicar los hechos, que luego serán refutadas para promover nuevas
conjeturas. En sı́ntesis, para Popper y su escuela, ninguna teorı́a cientı́fica puede
establecerse en forma concluyente.
Sin embargo, para Feyerabend y Kuhn, en otro momento de gran contro-
versia en este tema, las décadas del 60 y 70, la práctica cientı́fica no está en
correspondencia con este proceder racional ni tampoco puede lograrlo, porque
en gran medida existen supuestos relativos a la objetividad, a la verdad, al papel
de la evidencia y a la invariabilidad semántica. Para Feyerabend, no existen,
principios universables de racionalidad cientı́fica; el crecimiento del conocimien-
to es siempre especı́fico y diferente como tampoco sigue un camino de antemano
fijado.
Dentro de esta controversia, a la Inferencia estadı́stica no se le ha eximido
del problema de la inducción. Ronald Fisher, considerado por muchos el padre
de la Estadı́stica, defendió el papel inductivo que conlleva el juzgamiento de
hipótesis 1 . Sin embargo un sector de cientı́ficos y filósofos consideran que tanto
la estimación de parámetros como el juzgamiento de hipótesis tienen dirección
inductiva pero el razonamiento o inferencia que se lleva a cabo es de carácter
deductivo.
En fin, la Historia y la Filosofı́a de la Ciencia tuvieron un enorme auge a
lo largo del siglo pasado, continúan acopiando y estructurando reflexiones y
argumentos sobre la inducción, pero al no ser el propósito de esta sección tratar
1 La denominación juzgamiento de hipótesis será justificada en el capı́tulo 4.
el proceso lógico de la inducción desde el punto de vista filosófico, ni tampoco

pretender su recuento histórico, ni mucho menos asumir una posición respecto
a ella, se omiten nombres de muy destacados pensadores contemporáneos. Lo
que realmente motiva incluir los párrafos anteriores es poner de manifiesto de
manera muy concisa el hecho de que el problema de la inducción es un problema
filosófico vigente con 23 siglos de existencia al cual generaciones de filósofos y
cientı́ficos se han dedicado.
Y más allá del debate epistemológico y metafı́sico contermporáneo dentro
de la Filosofı́a de la Ciencia, es cierto que gran parte de la Ciencia actual frente
a una naturaleza entrelazada de azar concomitante con una variabilidad inher-
ente, reconoce de una u otra manera que el ensanche de su cuerpo conceptual
requiere de la participación impresindible de la Estadı́stica. Mucho antes de
la omnipresencia del computador, de los avances vertiginosos de la teorı́a y
métodos estadı́sticos de los últimos tiempos, Hempel en 1964 en su libro, As-
pectos de la explicación cientı́fica, se referı́a a los dos modelos de explicación
de tipo estadı́stico:“el modelo estadı́stico deductivo, en el que las regularidades
estadı́sticas son deducidas de otras leyes estadı́sticas más amplias, y el modelo
estadı́stico inductivo, en el que los hechos singulares se explican subsumiéndolos
bajo leyes estadı́sticas”.
En esta dirección cuando en los quehaceres cientı́ficos, tecnológicos o ad-
ministrativos se recurre a la Estadı́stica para organizar y orientar sus procesos
y métodos, como de igual manera cuando se recurre a ella para apoyar argu-
mentos y decisiones, ese recurso suele convertirse, desde uno de los puntos de
vista, en un proceso de inducción especı́ficamente en un proceso que puede ser
clasificado como de inducción amplificadora, de manera análoga a como Francis
Bacon vio en la inducción el procedimiento escencial del método experimental,
o convertirse en una serie de actividades ligadas a un procedimiento propio de
la ciencia o la tecnologı́a , en un procedimiento hipotético-deductivo, como lo
entiende la escuela propperiana. Para cualquiera de los dos puntos de vista que
se asuma, la Estadı́stica brinda un respaldo exclusivo en la inferencia.
1.2 Preliminares en la Inferencia estadı́stica

Dentro del contexto del parágrafo anterior, cabe formularse varias preguntas;
la primera de ellas: ¿Cuál es el objeto para el cual son válidos los enunciados
generales producto de la inducción, de la decisión o la estimación que realiza una
aplicación estadı́stica?. Paralelamente tiene lugar la segunda pregunta: ¿Cuáles
son las unidades que permiten obtener la información de casos particulares como
punto inicial en el citado proceso?. Y la tercera pregunta, que interroga sobre
la calidad del proceso de inferencia estadı́stica: ¿Cuáles son los principios que
rigen este proceso tan particular de inferencia?.
La primera pregunta indaga por el conjunto de todos los elementos que
en un determinado momento son del interés de un investigador, de un gestor
o de un tomador de decisiones. Elementos que son diferentes entre sı́ pero
que tienen una o varias caracterı́sticas comunes que los hacen miembros del
1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 5
conjunto en consideración. Al respecto en algunas disciplinas cientı́ficas esas

caracterı́sticas comunes son denominadas criterios de inclusión, complementados
con los criterios de exclusión, para definir concisamente la pertenencia de un
elemento al conjunto y para precisar igualmente la pérdida de la calidad de
pertenencia del elemento.
Para referirse a ese conjunto mencionado anteriormente el lenguaje corriente
de la Estadı́stica utiliza el término población; ese agregado o colección de las
unidades de interés es en últimas el objeto receptor del producto del proceso de
inducción, de la decisión o de la estimación.
La segunda pregunta parece confundirse con la primera. Si bien es cier-
to que la pregunta se refiere a esas entidades que corresponden a los hechos
particulares, a los casos singulares, a ese conjunto finito de casos, que son
examinados durante la primera etapa de la inferencia, la reunión de todas las
unidades posibles, constituye ese conjunto que se ha llamado población. Pero su
estricta determinación radica en que cada una de esas unidades será, en sentido
metafórico, un interlocutor con el investigador. Interlocutor, porque la inves-
tigación puede entenderse, de manera análoga, como un proceso comunicativo:
el investigador pregunta, la naturaleza responde. Esas unidades pueden ser de-
notadas como unidades estadı́sticas, de manera genérica para subsumir en
esa denominación, otras como unidad experimental, unidad de análisis, sujeto,
caso, entre otras.
Como en casi todas las oportunidades, de hecho no existe la posibilidad de
“dialogar”con todas y cada una de las unidades estadı́sticas, debido a impera-
tivos que lo impiden, asociados a varios aspectos. Por ejemplo, cuando el tamaño
de la población, es decir, el cardinal del conjunto que reúne a todas las unidades
estadı́sticas, es ingente; o también cuando la respuesta de la unidad implica
su desnaturalización o deterioro; igualmente cuando ese “diálogo”es oneroso, o
cuando los resultados de la investigación se requieren con apremio.
A ese subconjunto de unidades que un párrafo anterior se referı́a como el
conjunto finito de casos que son examinados durante la primera etapa del pro-
ceso de inferencia, circunscrito al subconjunto de unidades estadı́sticas elegidas
por medio de procedimientos estadı́sticos formales, por supuesto, se le designa
corrientemente como muestra.
A diferencia de las dos preguntas anteriores, cuyas respuestas son en últimas
acuerdos semánticos, la tercera es una pregunta fundamental que requiere
respuestas a partir de elaboraciones conceptuales, repuestas que se darán
gradualmente con el desarrollo de los capı́tulos objeto de este texto; pero pre-
viamente de una manera sucinta se esboza el fundamento de las respuestas.
La Estadı́stica facultada para sustentar y conducir procesos de inducción, de-
cisión y estimación muy caracterı́sticos, cuenta con la inferencia estadı́stica como
la fuente conceptual que nutre, avala y licencia la estructura y funcionamiento
de métodos y procedimientos estadı́sticos. Para el desarrollo de cada una de
sus dos componentes, relativos a la estimación de parámetros y el juzgamiento
de hipótesis, la inferencia estadı́stica tiene como punto de partida la referen-
cia o el establecimiento de modelos para representar variables observables o no
observables, modelos que pueden ser explı́citos o generales.
Semánticamente el vocablo modelo responde a varias acepciones, particu-

larmente dentro del lenguaje cientı́fico y tecnológico. Sin embargo el sentido
que la Estadı́stica le confiere al término, es el de consistir en una traducción
de un aspecto de la realidad a un lenguaje simbólico, como uno de los recursos
para representar de manera simplificada su comportamiento, que habilite pro-
cesos de generalización, que incluya sus aspectos fundamentales, que facilite su
descripción o permita la toma de decisiones.
La factibilidad de representar variables muy disı́miles asociadas con fenóme-
nos de distintos campos del saber a través de un mismo modelo de probabilidad,
permite a la Inferencia estadı́stica detenerse en el modelo mismo para conver-
tirlo en su objeto de estudio. A partir de su estructura, de las expresiones
matemáticas asociada a su naturaleza y con ellas de la presencia y papel que
desempeñan los parámetros, se construyen y evalúan posibles estimadores de es-
tos últimos, y de igual manera se derivan y evalúan procedimientos que permitan
juzgar afirmaciones sobre el modelo.
En consecuencia, los principios que avalan procesos de carácter estadı́stico,
tratados por la Inferencia estadı́stica y motivo de la tercera pregunta, consisten
en métodos y criterios relacionados tanto con la construcción de estimadores y
test como con el examen de la aptitud e idoneidad de los mismos, y que tal
como se anunció, la descripción y el desarrollo de los citados principios son en
definitiva el contenido mismo de este texto.
Definición 1.2.1. Una muestra aleatoria es una sucesión finita de
variables aleatorias independientes e idénticamente distribuidas X1 , X2 , . . . , Xn .
De manera más general una sucesión de variables aleatorias X1 , X2 , . . . , inde-
pendientes y con idéntica distribución, también se denomina muestra aleatoria.
En el caso de una sucesión finita, el valor n recibe el nombre de tamaño de la
muestra o tamaño muestral.
La definción anterior revela que en el contexto estadı́stico el término muestra
presenta dos acepciones: la de ser un subconjunto de unidades estadı́sticas elegi-
das por métodos estadı́sticos formales y la adjetivada como aleatoria expuesta
en la definición anterior, ésta referida a una sucesión de variables aleatorias. Lo
mismo le ocurre al término población: denota al conjunto completo de unidades
estadı́sticas objeto de estudio y ahora se le concibe como una variable aleatoria,
en el sentido que se expone seguidamente.
El acceso al estudio de ese conjunto de unidades estadı́sticas, se lleva a
cabo mediante el examen de las caracterı́sticas o respuestas de sus integrantes,
interpretadas como variables; el discernimiento de la esencia ya no individual
sino colectiva de las unidades es en suma el motivo de la investigación o estudio;
por ello el comportamiento de las variables se convierte entonces en un elemento
revelador de caracterı́sticas y propiedades que sustentan la descripción de la
colectividad, las explicaciones o las decisiones a que haya lugar.
El comportamiento real de una o varias variables es un comportamiento re-
flejo de la naturaleza de la población, que no siempre es posible conocer. Por ello
acudir a modelos de probabilidad para emular el comportamiento poblacional
es un recurso legı́timo que reduce carencias, permite aprovechar las virtudes
1.2. PRELIMINARES EN LA INFERENCIA ESTADÍSTICA 7
propias del modelo y hace posible la utilización de un lenguaje universal, por

supuesto sobre la base de una escogencia juiciosa del modelo.
Entonces, un aspecto de las unidades estadı́sticas observado, medido o cuan-
tificado en una variable, (o varios aspectos utilizando un vector para disponer
las variables) se le abstrae como una variable aleatoria (o un vector aleatorio)
que tiene asociado un modelo particular. Esta variable aleatoria que representa
una variable en la población suele denominársele igualmente población.
Bajo estas consideraciones la sucesión de variables aleatorias X1 , X2 , . . . , Xn ,
de la definición anterior denominada muestra aleatoria además de ser un ele-
mento del ámbito conceptual de la Teorı́a Estadı́stica, puede vincularse con la
información especı́fica acopiada de un subconjunto de n unidades estadı́sticas
de las cuales se dispone de los valores x1 , x2 , . . . , xn , correspondientes a una
variable denotada por X. Dicho en otros términos el valor xi puede entenderse
como una realización de la correspondiente variable aleatoria Xi , i = 1, 2, . . . , n,
por eso es habitual encontrar recurrentemente la expresión “sea X1 , X2 , . . . , Xn
una muestra aleatoria de una población con función de densidad...”. El contexto
en el cual se encuentre el vocablo población, delimita la acepción en uso: un
conjunto o una variable aleatoria.
Definición 1.2.2. Se denomina Estadı́stica a una variable aleatoria
construida como una función de las variables aleatorias X1 , X2 , . . . , Xn que
conforman una muestra aleatoria, función que no depende de parámetro al-
guno constitutivo de la expresión algebraica que identifica al modelo asumido
para representar una variable en la población, ni tampoco depende de constantes
desconocidas, también llamados parámetros, que cuantifican rasgos generales en
la población cuando no se asume un modelo especı́fico.
Como el aspecto determinante en la naturaleza de una estadı́stica es su
no dependencia funcional de parámetros, se le resalta por medio del siguiente
ejemplo.
Ejemplo 1.2.1. Asumiendo el modelo Gaussiano para representar una variable
en la población, y si X1 , X2 , . . . , Xn es una muestra aleatoria de la población
ası́ modelada, son estadı́sticas entre otras
X1 + X2 + · · · + Xn
• = Xn
n
(X1 − X n )2 + (X2 − X n )2 + · · · + (Xn − X n )2
• = Sn2
n−1
• X1,n = min{X1 , X2 , . . . , Xn }
Puesto que los parámetros μ y σ son las constantes caracterı́sticas del
modelo Gaussiano, particularmente las dos siguientes variables aleatorias no
son estadı́sticas
n
n 2 (Xi − μ)2
Xi − X n i=1
i=1
σ n−1
El contenido semántico que se les da en Estadı́stica tanto al término estimar

como al término estimación, para referirse a su acción o efecto, proviene de
una de las acepciones corrientes que tiene el segundo vocablo. El significado en
mención de: aprecio o valor que se da y en que se tasa o considera algo 2 , no
sugiere un cálculo aproximado de un valor como equivocadamente se entiende,
porque no hay referentes para calificar su aproximación, ni tampoco como un
proceso adivinatorio; debe entenderse como la realización formal de un avalúo,
es decir en llevar a cabo un proceso que exige de manera imprescindible el
contar con información de ese algo del cual se quiere fijar su valor. Por lo
tanto la calidad de la estimación, depende directamente de la calidad original
y la cantidad de información que se posea. Consecuentemente una cantidad
insuficiente de información genera estimaciones no fiables, como igualmente las
genera una gran cantidad de información de calidad exigua.
A manera de sinopsis, considerando simultáneamente tanto la cantidad de
información como su calidad y utilizando el plano cartesiano para su repre-
sentación, en la siguiente figura se adjetivan distintas circunstancias en calidad
y cantidad de información que constituye el insumo en el proceso de estimación.
100%
Desechable Ideal
Cantidad
ADMISIBLE
Funesta Inadmisible
0 Calidad 100%
Figura 1.1: Diagrama de calidad y cantidad de información
La calidad de la información, de la cual este texto no se ocupa porque se pre-

tenden propósitos de otro tipo, debe asegurarse a partir del diseño, construcción
y calibración de instrumentos para el registro de la información, dentro de la
organización y ejecución de las actividades de acopio de información y durante
2 Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda edi-
ción.2001
1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 9
el proceso de almacenamiento y guarda de la información.

Definición 1.2.3. Una estadı́stica cuyas realizaciones son utilizadas para llevar
a cabo estimaciones de los parámetros de un modelo probabilı́stico se denomina
estimador y a las citadas realizaciones o valores particulares se les conoce como
estimaciones.
Definición 1.2.4. El modelo probabilı́stico que rige el comportamiento de una
estadı́stica o de un estimador se denomina distribución muestral de la
respectiva estadı́stica o del respectivo estimador.
Algunos autores se refieren a la distribución de la variable aleatoria que rep-
resenta a la población, como la distribución original de las observaciones, o
modelo original y a la distribución muestral de una estadı́stica como la distribu-
ción reducida o modelo reducido.
Definición 1.2.5. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con momentos oridinarios y centrales μr y μr respectivamente. Los momentos
muestrales, ordinarios y centrales de orden r, r = 1, 2, . . . , cumplen en la
muestra funciones análogas a los momentos poblacionales μr y μr , y se denotan
y definen como
1 r
n

Mr,n = X
n i=1 i
1
n
Mr,n = (Xi − X n )r
n i=1

En particular cuando r = 1, primer momento ordinario muestral, M1,n = X n,
es llamado de manera más corriente, promedio muestral o promedio de la
muestra. Se prefiere como varianza muestral en cambio del segundo mo-
mento muestral, por razones que posteriormente se justificarán, a la expresión
1
n
(Xi − X n )2
n − 1 i=1
1.3 Preliminares en convergencia de variables

aleatorias
Para aprestar los elementos que se requieren en el tema de Inferencia estadı́stica,
es preciso abordar de una manera suscinta los tipos de convergencia de variables
aleatorias en razón a que posteriormente el crecimiento del tamaño de muestra
permite derivar propiedades interesantes de algunas estadı́sticas, y por lo tanto
el propósito de esta sección es presentar los tipos más corrientes de convergencia
de variables aleatorias.
Por medio de {Xn }, n = 1, 2, . . . , se describe una sucesión de variables
aleatorias X1 , X2 , . . . , la cual es una sucesión de funciones medibles {Xn (w)}
definida en un espacio muestral Ω, y teniendo en cuenta que todas las variables

aleatorias constituyentes de la sucesión están consideradas en el mismo espacio
de probabilidad (Ω, A, P ).
En primer lugar, siendo {Xn } una sucesión de variables aleatorias y c un
número real, el conjunto {w|Xn (w) = c} ∈ A, de tal manera que

P lim Xn = c = 1
n→∞
esté siempre definido.

Se dice que la sucesión de variables aleatorias {Xn } converge casi seguro
a cero o converge a cero con probabilidad uno si:

P lim Xn = 0 = 1
n→∞
Además, si las variables aleatorias X1 , X2 , . . . , y la variable aleatoria particular

X están definidas en el mismo espacio de probabilidad, se afirma que la sucesión
de variables aleatorias {Xn } converge casi seguro a la variable aleatoria
X, si la sucesión de variables aleatorias {Xn − X} converge casi seguro a cero,
este tipo de convergencia también se conoce como convergencia fuerte y se
simboliza como
a.s.
Xn −−→ X
Ejemplo 1.3.1. Si el comportamiento probabilı́stico de cada una de las

variables aleatorias de la sucesión {Xn } se modela por medio de la distribu-
ción de Bernoulli de manera que Xn ∼ Ber(( 12 )n ), entonces
a.s.
Xn −−→ 0
En efecto,

P lim Xn = 0 = 1
n→∞
1 n n
n
puesto que P [Xn = 0] = 1 − 2 . Como V [Xn ] = 12 1 − 12 , puede
notarse el decrecimiento de la varianza en cuanto n se incrementa, es decir
que Xn va perdiendo el carácter de variable aleatoria porque su varianza va
tendiendo a cero, la variable va asumiendo rasgos de una constante.
En segundo lugar, se dice que la sucesión de variables aleatorias {Xn } con-

verge en probabilidad a la variable aleatoria X, hecho simbolizado como,
p
Xn −
→X
si lim P [|Xn − X| < ] = 1, para > 0. Para referirse a la convergencia en

n→∞
probabilidad también puede utilizarse convergencia estocástica, convergencia en
medida o convergencia débil .
1.3. PRELIMINARES EN CONVERGENCIA DE VARIABLES ALEATORIAS 11
Un tercer tipo de convergencia se conoce como convergencia en momento

de orden r . En este caso cada variable de la sucesión de variables aleatorias
{Xn } y X poseen el momento ordinario de orden r. En estas circunstancias
se afirma que la sucesión de variables aleatorias converge en momento de
orden r a la variable aleatoria X, lo cual se representa como,
rL
Xn −→ X
si lim E [(|Xn − X|)r ] = 0. Particularmente, si r = 1 suele decirse que la suce-

n→∞
sión de variables aleatorias {Xn } converge en valor esperado a la variable
aleatoria X. Similarmente, cuando r = 2 la convergencia se conoce como
convergencia en media cuadrática.
Un cuarto y último tipo de convergencia de variables aleatorias se refiere
a una sucesión de variables aleatorias {Xn }, cuya correspondiente sucesión de
funciones de distribución F1 (x), F2 (x), . . . , es considerada. De esta manera la
sucesión de variables aleatorias {Xn } converge en distribución a la variable
aleatoria X, cuya función de distribución es F (x), hecho denotado:
d
Xn −
→X
si lim Fn (x) = F (x) para todo x.

n→∞
Entre los diferentes tipos de convergencia existen relaciones que es necesario
destacar. El siguiente teorema las reúne.
Teorema 1.3.1. Estando las variables aleatorias X1 , X2 , . . . y la variable par-
ticular X difinidas sobre el mismo espacio de probabilidad (Ω, A, P ),
1. Si {Xn } converge casi seguro a la variable aleatoria X con probabilidad 1,
implica que {Xn } converge en probabilidad a la variable aleatoria X.
2. Si {Xn } converge en valor esperado a la variable aleatoria X, implica que
{Xn } convergen en probabilidad a la variable aleatoria X.
3. Si {Xn } converge en probabilidad a la variable aleatoria X implica que
{Xn } converge en distribución a la variable aleatoria X.
4. Siendo r > s, la convergencia de una sucesión de variables aleatorias
{Xn } en momento de orden r implica la convergencia de la sucesión en
momento de orden s.
De manera gráfica las relaciones que enuncia el teorema 1.3.1, se pueden
recapitular en la figura 1.2
Teorema 1.3.2 (Teorema de Lévy). Considerando la variable aleatoria par-
ticular X y la sucesión de variables aleatorias {Xn }, definidas sobre el mismo
espacio de probabilidad, y siendo {φn (t)} la sucesión de funciones caracterı́sticas
correspondientes a las variables de la sucesión {Xn },
d
Xn −
→ X si y sólo si lim φn (t) = φ(t)
n→∞
Convergencia
casi segura
Convergencia en Convergencia en
probabilidad distribución
Convergencia en
valor esperado
Figura 1.2: Relaciones entre algunos tipos de convergencia de variables aleato-

rias
para t ∈ R y φ(t) función caracterı́stica de la variable aleatoria X, continua en

cero.
Teorema 1.3.3 (Teorema de Lévy). - Versión para funciones genera-
trices de momentos - Considerando la variable aleatoria particular X y
la sucesión de variables aleatorias {Xn }, definidas sobre el mismo espacio de
probabilidad, y siendo {Mn (t)} la sucesión de funciones generatrices de momen-
tos correspondientes a las variables de la sucesión {Xn }, las cuales existen para
t real en algún intervalo alrededor de cero,
d
Xn −
→ X si y sólo si lim Mn (t) = M (t)
n→∞
para t real en algún intervalo alrededor de cero y M (t) función generatriz de

momentos de la variable aleatoria X.
Teorema 1.3.4. Sea {Xn } una sucesión de variables aleatorias.
p
Xn −
→ c si y sólo si lim Fn (x) = F (x)
n→∞
siendo c una constante, Fn (x) la función de distribución de Xn y F (x) una

función de distribución tal que F (x) = 0 para x < c y F (x) = 1 para x ≥ c.
1.4 Caracterı́sticas generales de algunas estadı́s-

ticas
Los momentos muestrales, además de cumplir funciones análogas a los momen-
tos poblacionales como se incorporó en la definición 1.2.5, son estadı́sticas de
1.4. CARACTERÍSTICAS GENERALES DE ALGUNAS ESTADÍSTICAS 13
uso frencuente que bajo la garantı́a de la existencia de determinados momen-

tos poblacionales, sus distribuciones muestrales poseen propiedades generales
respecto a su posición y a su dispersión en la forma como el siguiente teorema
lo indica.
Teorema 1.4.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

representada por la variable aleatoria X con varianza σ 2 y con momento ordi-
nario μ2r , r = 1, 2, . . . , entonces el valor esperado y la varianza del momento
muestral ordinario son respectivamente:

E[Mr,n ] = μr
1

V [Mr,n ]= E[X 2r ] − (E[X r ])2
n
1

= μ2r − (μr )2
n
Corolario 1.4.1.1. Bajo las hipótesis del teorema 1.4.1,
E[X n ] = μ1 = μ
σ2
V [X n ] =
n
con valor esperado, también llamado promedio poblacional, μ y varianza σ 2 ,
y existiendo además el momento central de orden cuatro μ4 , entonces

1
n
2
E[Sn ] = E (Xi − X n ) = σ 2
2
n − 1 i=1

1 n−3 4
V [Sn2 ] = μ4 − σ ,n > 1
n n−1
El tamaño de la muestra es un elemento substancial tanto para las disquisi-

ciones en la teorı́a de la estadı́stica como para la utilización de la misma. La
pregunta por su magnitud es quizá de las más inquietantes para el investigador
en la búsqueda de respaldo a la confiabilidad de su investigación; el tamaño
muestral es uno de los aspectos con los cuales se certifican o descalifican estu-
dios, es en definitiva un punto obligado para dilucidar.
La incidencia relevante del tamaño de la muestra en la distribución muestral
de muchas estadı́sticas, gira alrededor del tema conocido como distribuciones
asintóticas. En particular en la medida que se vaya incrementando el tamaño de
la muestra, el promedio muestral adquiere unos rasgos propios que los siguientes
teoremas describen.
Teorema 1.4.3 (Ley débil de los grandes números). Si X1 , X2 , . . . , Xn

es una muestra aleatoria de una población con valor esperado μ y varianza σ 2 ,
entonces
X1 + X2 + . . . + Xn p
−
→μ
n
La nota de la demostración del teorema anterior, destaca el hecho de que

P − < X n − μ < ≥ 1 − δ
σ2
para n entero mayor que 2 , > 0, δ > 0; lo cual permite determinar la
δ
magnitud del tamaño muestral bajo prefijados requisitos. Esta cota para el
tamaño de la muestra debe entenderse dentro del contexto de una población
infinita y una muestra simple.
Ejemplo 1.4.1. ¿Cuál debe ser el tamaño de la muestra para tener una
probabilidad de 0.95 de que el promedio muestral no difiera en más de una
cuarta parte de la desviación estándar de μ?
En esta situación, = 0.25σ, δ = 0.05, por lo tanto
σ2
n> = 320
(0.25σ)2 0.05
Modificando parcialmente las condiciones del teorema 1.4.3 en el sentido de

no hacer ninguna mención de la varianza σ 2 , es posible reiterar la convergen-
cia en probabilidad del promedio de la muestra, como lo presenta el siguiente
teorema.
Teorema 1.4.4 (Teorema de Khintchine). Si X1 , X2 , . . . , Xn es una mues-

tra aleatoria de una población con valor esperado μ entonces
p
Xn −
→μ
De manera más general, la convergencia en probabilidad de los momentos

muestrales ordinarios a los momentos poblacionales ordinarios está avalada por
el siguiente teorema.

para la cual el momento central μ2r existe, entonces
p
Mr,n → μr ,
− r = 1, 2, . . .
Para cerrar esta relación de teoremas que giran alrededor de la idea de la

Ley débil de los grandes números, se incluye el siguiente teorema que puede
entenderse como una generalización de la citada ley.
Teorema 1.4.6. Si X1 , X2 , . . . es una sucesión de variables aleatorias tales que

E[Xi ] = μi y V [Xi ] = σi2 son finitos y ρ(Xi , Xj ) = 0, i = j, para i = 1, 2, . . . ,
entonces
p
X n − μn −
→0
1 n
siendo μn = μi
n i=1
La Ley fuerte de los grandes números es un conjunto de teoremas referentes
a la convergencia casi segura de sucesiones de variables aleatorias. El teore-
ma siguiente es el más divulgado de todos y fue enunciado originalmente por
Kolmogorov.
Teorema 1.4.7 (Ley fuerte de los grandes números). Si X1 , X2 , . . . , Xn
es una muestra aleatoria de una población con valor esperado μ, entonces la
sucesión {X n − μ} converge casi seguro a cero.
con valor esperado μ y varianza σ 2 , entonces
a.s.
Sn2 −−→ σ 2
p
y en consecuencia Sn2 −
→ σ2
Con la denominación de Teorema del Lı́mite Central debe entenderse más a
un conjunto de teoremas concernientes a la convergencia en distribución de la
suma de un número creciente de variables aleatorias al modelo Gaussiano, que a
la más popular de sus versiones. Es un conjunto de teoremas fundamentales de
la Estadı́stica pues constituyen puntos de apoyo substanciales de la Inferencia
estadı́stica y de las aplicaciones.
Bajo la citada denominación de teorema del lı́mite central se incluyen
variantes como la versión original conocida como la ley de los errores, derivada
de los trabajos de Gauss y Laplace sobre la teorı́a de errores, que permitió el
surgimiento de las versiones más antiguas referentes a variables con distribución
de Bernoulli, debidas a De Moivre y Laplace en los siglos XVI y XVII, se in-
cluyen las versiones de Lindeberg-Lévy y Lindeberg-Feller, que son consecuencia
de un trabajo inciado por Chevyshev y Liapunov a finales del siglo XIX, trabajo
encaminado a la búsqueda de una demostración rigurosa, se incluyen las ver-
siones de Bikelis y aquellas adaptadas para los casos multivariados, y también
se incluyen aquellas para el caso de variables dependientes.
En particular la versión clásica o Teorema de Lindeberg-Lévy, la versión más
difundida, corresponde al siguiente teorema, resultado al que llegaron de manera
independiente J.W.Lindeberg y P.Lévy en la segunda década del siglo XX.
Teorema 1.4.9 (Teorema del Lı́mite Central (Lindeberg-Lévy)). Si
X1 , X2 , . . . , Xn es una muestra aleatoria de una población con valor esperado
μ y varianza σ 2 finitos, considerando la variable aleatoria
Xn − μ
Zn =
√σ
n
entonces la sucesión de variables aleatorias {Zn } converge en distribución a una

variable aleatoria con distribución Normal estándar.
En pocas palabras, esta difundida versión determina que,
√
n(X n − μ) d
−
→ Z ∼ N (0, 1)
σ
El teorema del lı́mite central es la mejor justificación de la existencia del
modelo Gaussiano y del énfasis que de él se hace reiteradamente. Por otra
parte lo admirable del teorema radica en que no importa el modelo regente del
comportamiento probabilı́stico de la población, y en que la exigencia de finitud
del valor esperado y la varianza es fácil satisfacerla en las aplicaciones.
Para finalizar estas consideraciones acerca del teorema del lı́mite central se
presenta una versión especial la cual corresponde al teorema de Lindeberg-Feller.
Teorema 1.4.10 (Teorema del Lı́mite Central (Lindeberg-Feller)). Si
X1 , X2 , . . . es una sucesión de variables aleatorias independientes con valor es-
n
perado μi y varianza σi2 finitos, i = 1, 2, . . . y asumiendo que τn2 = σi2 → ∞
2 i=1
σ
y además que max τ i2 → 0 cuando n → ∞, entonces
1≤i≤n n

n
(Xi − μi )
i=1 d
−
→ Z ∼ N (0, 1)
τn
si y sólo si para cada > 0,

1
n
lim 2 (x − μi )2 fi (x)dx = 0
n→∞ τn |x−μ |≥τ
i=1 i n
siendo fi (x) la función de densidad de la variable aleatoria Xi , i = 1, 2, . . .

Cuando el comportamiento de una población se asume regido por el
modelo Gaussiano, se pueden deducir propiedades especı́ficas adicionales para el
promedio y varianza muestrales, propiedades que hacen explı́citas los siguientes
teoremas.
con distribución Normal de valor esperado μ y varianza σ 2 , entonces

σ2
X n ∼ N μ,
n
Teorema 1.4.12. Si X1 , X2 , . . . , Xn es una sucesión de variables aleatorias
independientes tales que Xi ∼ N (μi , σi2 ), entonces
n 2
Xi − μi
U= ∼ χ2 (n)
i=1
σ i
Corolario 1.4.12.1. Cuando la sucesión de variables aleatorias constituye una

muestra aleatoria de una población con distribución Normal, de valor esperado
μ y varianza σ 2 ,
n
2
Xi − μ
U= ∼ χ2 (n)
i=1
σ

con distribución Normal de valor esperado μ y varianza σ 2 , entonces las es-
tadı́sticas X n y Sn2 son dos variables aleatorias estadı́sticamente independientes.

Normal de valor esperado μ y varianza σ 2 , entonces

n
(Xi − X n )2 (n − 1)Sn2
= ∼ χ2 (n − 1)
i=1
σ2 σ2
Con supuestos menos taxativos, el promedio y la varianza muestrales pre-

sentan un comportamiento muy particular. Los siguientes teoremas resaltan la
marcada autonomı́a de las estadı́sticas X n y Sn2 .

cuya función de densidad es simétrica, entonces
cov(X n , Sn2 ) = 0
La expresión usual de la varianza muestral incluye el promedio de la muestra,

es decir que la varianza podrı́a entenderse como función de éste. Sin embargo, su
presencia en la expresión puede considerarse aparente puesto que la varianza de
la muestra puede prescindir del promedio muestral en la forma como lo garantiza
el siguiente teorema 3 .

para la cual no se asume un modelo de probabilidad especı́fico, entonces
1 n n
Sn2 = (Xi − Xj )2
2n(n − 1) i=1 j=1
En sı́ntesis, es claro que el promedio y varianza de la muestra son estadı́sticas

tales que bajo el modelo Gaussiano son estadı́sticamente independientes, bajo un
modelo de probabilidad cuya función de densidad es simétrica, las estadı́sticas
no están correlacionadas, y en cualquier situación la varianza de la muestra no
depende funcionalmente del promedio de la muestra.
3 Jorge E. Ortiz P. Boletı́n de Matemáticas. Volúmen VI No. 1 (1999), pp. 43-51
1.5 Estadı́sticas de orden

Una modalidad especial de estadı́sticas la integran las llamadas estadı́sticas
de orden. Ellas desempeñan papeles importantes en algunas aplicaciones como
en las Cartas de Control Estadı́stico de la Calidad y como en el fundamento y
manejo de algunos conceptos en Estadı́stica no paramétrica. Además de estos y
otros usos, las estadı́sticas de orden son particularmente los estimadores apropi-
ados de parámetros que rigen el recorrido de la población, y ası́ mismo son
utilizadas en el juzgamiento de hipótesis referentes a estos parámetros. Por ser
estimadores y sustentar reglas de decisión en poblaciones especiales es menester
exponer algunos elementos y consideraciones acerca de su distribución.
Definición 1.5.1. La k-ésima estadı́stica de orden, k = 1, 2, . . . , n,
correspondiente a una muestra aleatoria X1 , X2 , . . . , Xn , denotada por Xk,n ,
está definida de la siguiente manera
Xk,n = min {{X1 , X2 , . . . , Xn } − {X1,n , X2,n , . . . , Xk−1,n }}
siendo
X1,n : mı́nimo de la muestra
Xn,n : máximo de la muestra

Al conjunto de estadı́sticas de orden X1,n , X2,n , . . . , Xn,n se le designa con el
nombre de muestra aleatoria ordenada.
A partir de las estadı́sticas de orden pueden definirse otras estadı́sticas como:
• El rango muestral
R = Xn,n − X1,n
• El semirango muestral
X1,n + Xn,n
SR =
2
• La mediana muestral
⎧
⎪
⎪ X n+1 ,n , si n es impar
⎪
⎨ 2
Me =
⎪
⎪
⎪ X n + X n2 +1,n
⎩ 2 ,n , si n es par
2
• La función de distribución empı́rica o función de distribución
muestral
1
n
Fn (x) = I(−∞,x] (xi )
n i=1
1.5. ESTADÍSTICAS DE ORDEN 19
es decir,
⎧
⎪ 0, si x < X1,n
⎪
⎪
⎪
⎪
⎪
⎨
k
Fn (x) = , si Xk,n ≤ x < Xk+1,n
⎪n
⎪
⎪
⎪
⎪
⎪
⎩
1, si x ≥ Xn,n , k = 1, 2, . . . , n − 1
1.5.1 Distribución de las estadı́sticas de orden

Las estadı́sticas heredan en menor o mayor medida los rasgos del modelo elegido
para representar el comportamiento poblacional. Especı́ficamente la distribu-
ción muestral de las estadı́sticas de orden incluye de manera explı́cita las fun-
ciones de densidad y distribución de la población como lo registran los siguientes
teoremas.
Teorema 1.5.1. Siendo X1,n , X2,n , . . . , Xn,n las estadı́sticas de orden o la mues-
tra ordenada de una población con función de distribución FX (x), entonces para
k = 1, 2, . . . , n
n
n
FXk,n (y) = [FX (y)]j [1 − FX (y)]n−j
j
j=k
Corolario 1.5.1.1. Para los casos especiales del mı́nimo y máximo de la mues-
tra se tiene:
FX1,n (y) = 1 − [1 − FX (y)]n

FXn,n (y) = [FX (y)]n
Teorema 1.5.2. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población

con función de distribución contı́nua FX (x), la función de densidad de la k-
ésima estadı́stica de orden es
n!
fXk,n (y) = [FX (y)]k−1 [1 − FX (y)]n−k fX (y), k = 1, 2, . . . , n
(k − 1)!(n − k)!
La función conjunta de densidad de la j-ésima estadı́stica de orden y la
k-ésima estadı́stica de orden fXj,n ,Xk,n (x, y) es
c(n, j, k)[FX (x)]j−1 [FX (y) − FX (x)]k−j−1 [1 − FX (y)]n−k fX (y)fX (x)I(x,∞) (y)
para 1 ≤ j < k ≤ n, con c(n, j, k) = n!/[(j − 1)!(k − j − 1)!(n − k)!]. La función

conjunta de densidad de las estadı́sticas de orden es
⎧ n
⎪
⎨ n! fX (yi ) y1 < y2 < · · · < yn
fX1,n ,X2,n ,... ,Xn,n (y1 , y2 , . . . , yn ) = i=1
⎪
⎩
0 en otros casos
Ejemplo 1.5.1. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población

con distribución Uniforme en el intervalo (α, β), determinar la función de den-
sidad de la k-ésima estadı́stica de orden.
1
fX (x) = I(α,β) (x)
β−α
x−α
FX (x) = I(α,β) (x) + I[β,∞) (x)
β−α
k−1 n−k
n! y−α y−α 1
fXk,n (y) = 1− I(α,β) (y)
(k − 1)!(n − k)! β − α β−α β−α
n
n! 1
= (y − α)k−1 (β − y)n−k I(α,β) (y)
(k − 1)!(n − k)! β − α
La distribución de la k-ésima estadı́stica de orden es la de una variable aleatoria

con distribución Beta en el intervalo (α, β) con parámetros k y (n−k+1) cuando
la población es Uniforme en el intervalo (α, β).
Nota. Una variable aletoria X con distribución Beta en el intervalo (0, 1) puede
generar una variable aleatoria Y con distribución Beta en el intervalo (α, β)
mediante la relación
Y = α + (β − α)X
Teorema 1.5.3. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población

con función de distribución FX (x) continua. Para p fijo, si xp denota al único
percentil 100p poblacional, entonces

k−1
n l
P [Xj,n < xp < Xk,n ] = p (1 − p)n−l
l
l=j
1.5.2 Distribución del rango, semirango y mediana mues-

trales
Las estadı́sticas correspondientes al rango y semirango son funciones del máximo
y mı́nimo muestrales, por lo tanto la determinación de su distribución parte de
la consideración de la distribución conjunta de X1,n y Xn,n
n−2
fX1,n ,Xn,n (x, y) = n(n − 1) [FX (y) − FX (x)] fX (x)fX (y)I(x,∞) (y)
Definidas las estadı́sticas:
R = Xn,n − X1,n
X1,n + Xn,n
T =
2
1.5. ESTADÍSTICAS DE ORDEN 21
se considera la siguiente transformación

r r
x=t− y =t+
2 2
cuyo jacobiano es

∂x ∂x 1
1
∂r ∂t = 2
=1
∂y ∂y 1 1
2
∂r ∂t
con lo cual
n−2
fR,T (r, t) = n(n − 1) FX t + 2r − FX t − r2 fX t − 2r fX t − 2r
En consecuencia, para r > 0, se tiene
∞
fR (r) = fR,T (r, t)dt
−∞
∞
fT (t) = fR,T (r, t)dr
−∞
La distribución de la mediana está dependiendo del tamaño de la muestra. Si

éste es entero impar, su distribución está totalmente determinada pues
corresponde a la distribución de la estadı́stica de orden n+1
2 . Para la situación
en la cual n es par, la mediana es función de las estadı́sticas de orden X n2 ,n y
X n2 +1,n . Ası́ al tomar n = 2m, m = 1, 2, . . .
fX n ,n ,X n +1,n (x, y) = fXm,n ,Xm+1,n (x, y)

2 2
(2m)!
= [FX (x)]m−1 [1 − FX (x)]m−1 fX (x)fX (y)
[(m − 1)!]2
x+y
con x < y. Considerando la transformación u = 2 ,v = y, se tiene que
f x+y (u) = fU (u)
2
∞
2(2m)!
= [FX (2u − v)]m−1 [1 − FX (v)]m−1 fX (2u − v)fX (v)dv
[(m − 1)!]2 u
1.5.3 Distribución de la función de distribución empı́rica

La función de distribución empı́rica tiene varios usos especialmente en métodos
y conceptos de la Estadı́stica no paramétrica. Su gráfico se convierte en un
indicativo de una primera aproximación al ajuste que brinda el modelo. Algunos
aspectos de su distribución se presentan a continuación.

k n
P Fn (x) = = [FX (x)]k [1 − FX (x)]n−k
n k
donde k = 0, 1, 2, . . . , n. En efecto, denotando la variable aleatoria

Zi = I(−∞,x] (Xi )

n
luego Zi ∼ Ber(FX (x)), por lo tanto Zi ∼ Bin(n, FX (x)) y por consiguiente
i=1
E[Fn (x)] = FX (x)
FX (x)[1 − FX (x)]
V [Fn (x)] =
n
con función de distribución FX (x), entonces
P
Fn (x) −→ FX (x)
para un valor x dado.

Teorema 1.5.5 (Teorema de Glivenko-Cantelli). Si X1 , X2 , . . . , Xn es una
muestra aleatoria de una población con función de distribución FX (x), entonces
Fn (x) converge uniformemente a FX (x), esto es, para cada > 0,

lim P sup |Fn (x) − FX (x)| < = 1
n→∞ −∞<x<∞
FX (x)
Fn (x)
|
x
Figura 1.3: Esquema de las funciones de distribución Fn (x) y FX (x)

con función de distribución FX (x), la sucesión de variables aleatorias
√
n[Fn (x) − FX (x)]

FX (x)[1 − FX (x)]
converge en distribución a una variable aleatoria con distribución Normal estándar.

1.6. MOMENTOS DE ESTADÍSTICAS DE ORDEN 23
1.6 Momentos de estadı́sticas de orden

Los teoremas 1.5.1 y 1.5.2 puntualizan respectivamente la función de distribu-
ción y la función de densidad de la k-ésima estadı́stica de orden. En principio,
garantizada la existencia del momento de interés y determinada explı́citamente
la función de distribución FX (x), podrı́a formalizarse el momento con base en
las referidas funciones de distribución o de densidad. Sin embargo, su logro
depende de la complejidad de la integración requerida para su cálculo, dado que
algunas veces se alcanza únicamente por medio de integración numérica.
A manera de ejemplo, considerando el comportamiento poblacional como in-
diferente para cualquier valor del intervalo (0, 1), el valor esperado, la varianza
y el momento de orden r de la estadı́stica de orden k es factible determinarlos.
Ejemplo 1.6.1. Siendo X1,n , X2,n , . . . , Xn,n es una muestra ordenada de una
población con distribución Uniforme en el intervalo (0, 1)
k
E[Xk,n ] =
n+1
k(n − k + 1)
V [Xk,n ] =
(n + 2)(n + 1)2
12
j(n − k + 1)
ρ(Xj,n , Xk,n ) = , j<k
k(n − j + 1)
En efecto. En primer lugar, de manera general
1
n!
r
E[Xk,n ] = xr+k−1 (1 − x)n−k dx
(k − 1)!(n − 1)! 0
n!
= β(r + k, n − k + 1)
(k − 1)!(n − 1)!
Γ(a)Γ(b)
y utilizando la relación β(a, b) = , entonces
Γ(a + b)
r n! Γ(r + k)Γ(n − k + 1)
E[Xk,n ]=
(k − 1)!(n − 1)! Γ(r + k + n − k + 1)
n!(r + k − 1)!
= , 1≤k≤n
(r + n)!(k − 1)!
particularmente,
n!k! k
E[Xk,n ] = =
(n + 1)!(k − 1)! n+1
2
V [Xk,n ] = E[Xk,n ] − (E[Xk,n ])2
2 n!(k + 2 − 1)! k(k + 1)
E[Xk,n ]= =
(n + 2)!(k − 1)! (n + 1)(n + 2)
k(k + 1) k2 k(n − k + 1)
V [Xk,n ] = − 2
=
(n + 1)(n + 2) (n + 1) (n + 2)(n + 1)2
Por otra parte, denotándo E[Xj,n , Xk,n ] = Δ, se tiene que

1 y
n!
Δ= xj y(y − x)k−j−1 (1 − y)n−k dxdy
(j − 1)!(k − j − 1)!(n − k)! 0 0
1 y
n!
= y(1 − y) n−k
x (y − x)
j k−j−1
dx dy
(j − 1)!(k − j − 1)!(n − k)! 0 0
x
Realizando la sustitución v =
y
1
n!

Δ= y(1 − y)n−k y k β(j + 1, k − j) dy
(j − 1)!(k − j − 1)!(n − k)! 0
n!
= β(1 + j, k − j)β(k + 2, n − k + 1)
(j − 1)!(k − j − 1)!(n − k)!
j(k + 1)
= = E[Xj,n , Xk,n ]
(n + 1)(n + 2)
con lo cual
j(k + 1) jk
Cov(Xj,n , Xk,n ) = − j<k
(n + 1)(n + 2) (n + 1)2

j(n − k + 1)
ρ(Xj,n , Xk,n ) = j<k
k(n − j + 1)
por lo tanto, como caso especial, la correlación entre el mı́nimo y máximo de la

muestra bajo comportamiento poblacional Uniforme en el intervalo (0, 1) es
1
ρ(X1,n , Xn,n ) =
n
Como ya se mencionó, en algunos casos se requiere integración numérica
para determinar momentos de una estadı́stica de orden. Sin embargo es posible
presentar expresiones que permiten aproximar el valor esperado y varianza de
la k-ésima estadı́stica de orden.
El desarrollo de estas expresiones se basa en una expansión en serie de Taylor
y en el hecho de que si X es una variable aleatoria con función de distribución
FX (x) continua, la variable aleatoria Y = FX (X) tiene distribución Uniforme
en (0, 1), entonces

−1 k
E[Xk,n ]
FX
n+1
k(n − k + 1)
V [Xk,n ]
2
−1 k
(n + 1)2 (n + 2) fX FX n+1
1.7. DEMOSTRACIÓN DE LOS TEOREMAS DEL CAPÍTULO 25
Finalmente se expone una breve alusión a la distribución asintótica de las es-

tadı́sticas de orden.
El estudio de la distribución asintótica de la k-ésima estadı́stica de orden
incluye dos casos a saber: el primero cuando n tiende a infinito y nk permanece
fijo, el segundo cuando n tiende a infinito y k o n − k permanecen finitos.
Para algunos efectos, el primer caso es de mayor interés; el teorema siguiente
se adscribe a ese caso.
Teorema 1.6.1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
cuya función de distribución FX (x) es estrictamente monótona. Asumiendo que
xp es el percentil 100p poblacional, es decir, FX (xp ) = p, entonces la estadı́stica
de orden [np] + 1 tiene distribución asintótica Normal con valor esperado xp y
varianza n[fp(1−p)
X (xp )]
2.
Particularmente, si p = 12 (mediana) y la población es Normal con valor

esperado μ y varianza σ 2 la mediana muestral tiene distribución Normal con
2
valor esperado μ y varianza πσ 2n .
Con este teorema relativo a la distribución asintótica de la k-ésima estadı́stica
de orden concluye la introducción a las ideas preliminares de la Inferencia es-
tadı́stica, presentación que además entreabre el contexto filosófico en el cual
se desempeña, que describe las caracterı́sticas más relevantes de algunas es-
tadı́sticas y registra como estadı́sticas especiales a las estadı́sticas de orden.
Con esto se da paso a la exposición de los argumentos que sustentan las afirma-
ciones de los enunciados de los teoremas relacionados y finalmente a la serie de
ejercicios cuyo desarrollo complementará la reflexión sobre estos temas iniciales
y será un componente más en la aprehensión de los conceptos expuestos en este
primer capı́tulo.
1.7 Demostración de los teoremas del capı́tulo

Demostración (Teorema 1.3.1). Algunos apartes de la demostración pueden
consultarse en A first course in mathematical statistics, de G. Roussas, páginas
133 a 135 y en Basic probability theory de R. Ash, páginas 204 y 205.
p
Demostración (Teorema 1.3.4). Suponiendo que Xn −
→ c, entonces para
>0
lim P [|Xn − c| < ] = 1 = lim P [c − < Xn < c + ]
n→∞ n→∞
= lim [Fn (c + ) − Fn (c − )]
n→∞
= lim [Fn (c + )] − lim [Fn (c − )]
n→∞ n→∞
La imagen de cualquier función de distribución es un valor que pertenece al

intervalo [0, 1], luego la única posibilidad para que la igualdad anterior se de es
que
lim Fn (c + ) = 1 y lim Fn (c − ) = 0
n→∞ n→∞
hecho revelador de que Fn (x) −→ F (x) siendo F (x) una función de distribución
tal que

0 si x < c
F (x) =
1 si x ≥ c
es decir que F (x) es la función de distribución de una constante c.

Suponiendo ahora que Fn (x) −→ F (x) con F (x) = I[c,∞) (x), es decir que
lim Fn (x) = F (x)

n→∞
entonces
lim Fn (c − ) = 0 para > 0 y lim Fn (c + ) = 1

n→∞ n→∞
luego
lim [Fn (c + ) − Fn (c − )] = 1 = lim P [c − < Xn < c + ]

n→∞ n→∞
= lim P [|Xn − c| < ]
n→∞
p
lo cual significa que Xn −
→ c.
Demostración (Teorema 1.4.1). El valor esperado del momento ordinario
de orden r puede determinarse mediante dos argumentos. En primer lugar,
utilizando las propiedades del valor esperado se tiene que
n
1 r 1
n

E[Mr,n ] = E Xi = E[Xir ], r = 1, 2, . . .
n i=1 n i=1
En segundo lugar, como todas las variables aleatorias de la sucesión tienen la

misma distribución, por constituir una muestra aleatoria, E[Xir ] = μr , para
i = 1, 2, . . . , n, en consecuencia
1
n
1
E[Mr,n ]= μ = (nμr ) = μr
n i=1 r n
De manera similar puede determinarse la varianza del momento ordinario de

orden r. De las propiedades de la varianza, se puede afirmar que
n n
1 r 1
r
V [Mr,n ] = V X = 2V Xi , r = 1, 2, . . .
n i=1 i n i=1
y debido a que las variables aleatorias son independientes, pues constituyen una
muestra aleatoria, lo son también las variables X1r , X2r , . . . , Xnr , con lo cual
1 1
n n
2
V [Mr,n ] = 2 r
V [Xi ] = 2 E[Xi2r ] − (E[Xir ])
n i=1 n i=1
y como las variables tienen distribución idéntica,
1 1
n

V [Mr,n ]= 2
μ2r − (μr )2 = μ2r − (μr )2
n i=1 n
Demostración (Teorema 1.4.2). Para determinar el valor esperado de la

varianza muestral, es necesario previamente verificar la identidad:

n
(Xi − μ)2 = (n − 1)Sn2 + n(X n − μ)2
i=1
El sumar y restar X n es el punto de partida en la verificación de la identidad,

de tal manera que

n
n
n

2
(Xi − μ)2 = (Xi − X n + X n − μ)2 = (Xi − X n ) + (X n − μ)
i=1 i=1 i=1
Asimismo después de desarrollar el cuadrado indicado,

n
n
n
(Xi − μ)2 = (Xi − X n )2 + 2(X n − μ) (Xi − X n ) + n(X n − μ)2
i=1 i=1 i=1

n
= (Xi − X n )2 + n(X n − μ)2
i=1

n
n
porque (Xi − X n ) = Xi − nX n = nX n − nX n = 0, y por lo tanto
i=1 i=1

n
(Xi − μ)2 = (n − 1)Sn2 + n(X n − μ)2
i=1
Con el anterior recurso,

1
n
n
E[Sn2 ] =E (Xi − μ) −
2
(X n − μ)2
n − 1 i=1 n−1
n
1
= E[(Xi − μ)2 ] − nE[(X n − μ)2 ]
n − 1 i=1
como E[(Xi − μ)2 ] = V [Xi ], E[(X n − μ)2 ] = V [X n ] y teniendo en cuenta que

todas las variables aleatorias de la sucesión tienen la misma distribución,
n 2
1 σ 1
2
E[Sn ] = σ −n
2
= [nσ 2 − σ 2 ] = σ 2
n − 1 i=1 n n−1
La demostración del segundo enunciado del teorema, es uno de los ejercicios de

este capı́tulo.
Demostración (Teorema 1.4.3). La herramienta procedente para sustentar

el desarrollo de esta demostración será la desigualdad de Chevyshev, la cual
2
asegura que si X es una variable aleatoria con valor esperado μX y varianza σX
finita,
1
P [|X − μX | < rσX ] ≥ 1 − para cada r > 0
r2
Aplicando la desigualdad al caso especial de la variable aleatoria X n , teniendo en
σ2
cuenta que E[X n ] = μ y V [X n ] = , como lo manifiesta el corolario 1.4.1.1,
n

σ 1

P Xn − μ < r √ ≥1− 2 para cada r > 0
n r
utilizando el reemplazo = r √σn se tiene que > 0 y
σ2
P [X n − μ < ] ≥ 1 − 2
n
de tal manera que
σ2
lim P [X n − μ < ] ≥ lim 1 − 2 = 1
n→∞ n→∞ n
es decir que

lim P [X n − μ < ] = 1
n→∞
p
lo cual significa que X n −
→ μ, como lo afirma la ley débil de los grandes números.
σ2
Nota. La cota 1 − 2 crece en cuanto n crece. Si se fija la cota en 1 − δ,
n
0 < δ < 1, significa que existe un tamaño de muestra mı́nimo n, para el cual
σ2
P [|X n − μ| < ] ≥ 1 − δ. Dicho en otros términos 1 − 2 > 1 − δ, es decir,
n
σ2
P [− < X n − μ < ] ≥ 1 − δ, para n >
δ2
Demostración (Teorema 1.4.4). Utilizando la función generatriz de momen-
tos de la variable que representa a la población MX (t), o en su defecto la función
caracterı́stica φX (t),

t t t
MX n (t) = E e tX n
= E exp X1 + X2 + · · · + Xn
n n n
como las variables constituyen una muestra aleatoria,
n t
n t n
t
MX n (t) = E e n Xi = E e n X
= MX
i=1 i=1
n
entonces
2 n
μ t 1 t
MX n (t) = 1 + 2
+ E[X ] + ···
1! n 2! n
n
μt t
lim MX n (t) = lim 1+ +O = eμt
n→∞ n→∞ n n
función generatriz que corresponde a la función generatriz de una constante μ.
(O es el sı́mbolo “o pequeña”usado en el estudio de las series). Lo cual significa
que
d
Xn −
→μ
y con base en el teorema 1.3.4 se tiene que
p
Xn −
→μ
Demostración (Teorema 1.4.5). Como la sucesión X1r , X2r , . . . , Xnr confor-
ma un conjunto de variables aleatorias independientes e idénticamente dis-
tribuidas porque la sucesión X1 , X2 , . . . , Xn es una muestra aleatoria, entonces
sólo resta aplicar el teorema relativo a la Ley débil de los grandes números uti-
lizando la sucesión X1r , X2r , . . . , Xnr , con lo cual se puede concluir que
1 r p
n
→ E [X1r ] = μr
[X ] −
n i=1 i
Demostración (Teorema 1.4.7). Puede consultarse en Probability and Sta-

tistical Inference de Robert Bartoszynski y Magdalena Niewiadomska-Bugaj (1996)
en las páginas 430 a 431.
Demostración (Teorema 1.4.9). La estrategia para la demostración consiste
en el uso de la función generatriz de momentos y de sus propiedades, para lo cual
se asume la existencia de la función generatriz de momentos de la población.
Se apoya la demostración en el desarrollo en serie de McLaurin de la función
generatriz de momentos, demostración que también se puede llevar a cabo, uti-
lizando la función caracterı́stica.
Denotando como MZn (t) la función generatriz de momentos de la variable
aleatoria Zn , se tiene:

MZn (t) = E etZn
√
n Xn − μ
= E exp t
σ

t √ Xi − μ
n
= E exp n
n i=1
σ
n
t √ Xi − μ
=E exp n
i=1
n σ
como las variables de la sucesión X1 , X2 , . . . , Xn son variables aleatorias in-

dependientes por tratarse de una muestra aleatoria, las variables Y1 , Y2 , . . . , Yn
también lo son, siendo Yi = Xiσ−μ , i = 1, 2, . . . , n y por lo tanto,
n n
t t
MZn (t) = E exp √ Yi = MYi √
i=1
n i=1
n
como las variables Y1 , Y2 , . . ., Yntienen

la misma
distribución, con función
generatriz de momentos MYi √tn = MY √tn , i = 1, 2, . . . , n, entonces
n n
t t
MZn (t) = MY √ = MY √
i=1
n n
El desarrollo en serie de McLaurin de la función generatriz MY (t) evaluada en

el valor √tn es
2 3
μ1 t 1 μ2 t 1 μ3 t
MY (t) = 1 + √ + √ + √ + ···
σ n 2! σ 2 n 3! σ 3 n
como el valor esperado es igual a cero, por lo tanto, si existen, μr = μr ,
r = 1, 2, . . . , y además la varianza es igual a uno,
2 3
t 1 σ2 t 1 μ3 t
MY √ =1+ √ + √ + ···
n 2! σ 2 n 3! σ 3 n

1 1 2 1 1
=1+ t + √ μ3 t + 3
μ4 t + · · ·
4
n 2! 3! n 4!n
efectuando el reemplazo Pn (t) = 1 2

2! t + 1
√ μ t3
3! n 3
+ 1
4!n μ4 t
4
+ · · · y dado que
n
MZn (t) = MY √tn ,
n
MZn (t) = [1 + Pn (t)]
n
lim MZn (t) = lim [1 + Pn (t)]
n→∞ n→∞

= exp lim Pn (t)
n→∞
1 2
= e2t
porque los coeficientes de t3 , t4 , . . . tienden a cero cuando n → ∞.

1 2
Además e 2 t se reconoce como la función generatriz de momentos de una
variable aleatoria con distribución Normal estándar. Como
1 2
lim MZn (t) = MZ (t) = e 2 t
n→∞
d
de acuerdo con el teorema de Lévy, Zn −
→ Z, Z ∼ N (0, 1).
Demostración (Teorema 1.4.10). Los elementos que se requieren para el de-

sarrollo de la demostración de este teorema están más allá del alcance de este
texto.
Demostración (Teorema 1.4.11). Nuevamente se ha elegido a la función
generatriz de momentos como medio para llevar a cabo esta demostración. Sien-
do

1
MX (t) = exp μt + σ 2 t2
2
la función generatriz de una variable aleatoria X, X ∼ N (μ, σ 2 ),

MX n (t) = E etX n

1
n
= E exp t Xi
n i=1
n
t
=E exp Xi
i=1
n
debido a la independencia de las variables que constituyen la muestra aleatoria,
n n
t t
MX n (t) = E exp Xi = MXi
i=1
n i=1
n
Finalmente, como las citadas variables están identicamente distribuidas, de
acuerdo al modelo Gaussiano,
n
t
MX n (t) = MX
i=1
n
n
2
t 1 2 t
= exp μ + σ
i=1
n 2 n
2 n
t 1 t
= exp μ + σ 2
n 2 n

1 σ2 2
= exp μt + t
2 n
2

lo cual significa que X n ∼ N μ, σn
Xi − μi
Demostración (Teorema 1.4.12). La variable aleatoria Zi = , para
σi
i = 1, 2, . . . , n, es una variable aleatoria con distribución Normal estándar lo
cual permite afirmar que Zi2 ∼ χ2 (1).
Con el concurso de la función generatriz de momentos, puede establecerse que
n n

tU t Zi2
tZ 2
MU (t) = E e = E e i=1 =E e i
i=1
como la sucesión Z1 , Z2 , . . . , Zn es una sucesión de variables aleatorias inde-

pendientes,
n 2 n n 12 n2
1 1
MU (t) = E etZi = MZi2 (t) = =
i=1 i=1 i=1
1 − 2t 1 − 2t
lo cual significa que U ∼ χ2 (n).

Demostración (Teorema 1.4.13). La demostración está orientada a la de-
terminación de la independencia de X n , (X1 − X n ), (X2 , X n ), . . . , (Xn − X n )

n
para luego concluir la independencia entre X n y (Xi − X n )2 .
i=1
En primer lugar, la función generatriz de momentos M (t, t1 , t2 , . . . , tn ) de las
n
variables aleatorias X n , (X1 −X n ), (X2 , X n ), . . . , (Xn −X n ), con c = √2πσ 1
,
es

n
(xi − μ)2
c exp txn + t1 (x1 − xn ) + · · · + tn (xn − xn ) − dx1 · · · dxn
Rn i=1
2σ 2
En segundo lugar, al considerar la integral sobre xi , i = 1, 2, . . . , n se tiene
∞ ! "
1 xi (xi − μ)2
√ exp [t + nti − (t1 + t2 + · · · + tn )] − dxi
−∞ 2πσ n 2σ 2
que al efectuar el reemplazo

1 n
1
1
n
t + nti − ti = t + n(ti − t) con t = ti
n i=1
n n i=1
entonces la integral anterior puede expresarse como
∞ ! "
1 1
(xi − μ)2
√ exp t + n(ti − t) xi − dxi
−∞ 2πσ n 2σ 2
cuyo valor es finalmente

2
μ
σ 2 t + n(ti − t)
exp t + n(ti − t) +
n 2n2
por consiguiente

2

n
μ
σ 2 t + n(ti − t)
M (t, t1 , t2 , . . . , tn ) = exp t + n(ti − t) +
i=1
n 2n2

n
y como (ti − t) = 0, entonces
i=1

σ2
n
σ 2 t2
M (t, t1 , . . . , tn ) = exp μt + + (ti − t)2
2n 2 i=1
! "
σ2
n
1 σ2 2
= exp μt + t exp (ti − t)2
2 n 2 i=1
hecho que revela la independencia de X n , (X1 −X n ), (X2 −X n ), . . . , (Xn −X n ).

Por consiguiente X n , (X1 − X n )2 , (X2 − X n )2 , . . . , (Xn − X n )2 es un conjunto

n
de variables aleatorias independientes e igualmente X n y (Xi − X n )2 . En
i=1
consecuencia X n y Sn2 son estadı́sticamente independientes.
Demostración (Teorema 1.4.14). De la demostración del teorema 1.4.2 se
tiene que

n
n
(Xi − μ)2 = (Xi − X n )2 + n(X n − μ)2
i=1 i=1
por lo tanto

n
n
(Xi − μ)2 (Xi − X n )2
i=1 i=1 n(X n − μ)2
= +
σ2 σ2 σ2
luego
⎡ ⎡ n ⎤⎤
(Xi − μ)2
⎢ ⎢ i=1 ⎥⎥
⎥⎥ = E exp t (n − 1)Sn + t n(X n − μ)
2 2
E⎢
⎣exp ⎢t
⎣ ⎦⎦
σ2 σ2 σ2

(n − 1)Sn2 n(X n − μ)2
= E exp t E t
σ2 σ2
puesto que X n y Sn2 son estadı́sticamente independientes.

Debido a que

n
(Xi − μ)2
i=1 n(X n − μ)2
∼ χ2 (n) y ∼ χ2 (1)
σ2 σ2
entonces
n2 12
1 (n − 1)Sn2 1
= E exp t
1 − 2t σ2 1 − 2t
es decir
n−1
(n − 1)Sn2 1 2
1
E exp t = t<
σ2 1 − 2t 2
dicho de otra manera

n
(Xi − X n )2
i=1 (n − 1)Sn2
= ∼ χ2 (n − 1)
σ2 σ2
Demostración (Teorema 1.4.15). La demostración de este teorema se lle-

vará a cabo mediante inducción matemática sobre el tamaño de muestra.
Previamente a ella y con el fin de incluirlos en la demostración, es necesario
aprestar tres elementos a saber:
1. Si X, Y son dos variables aleatorias independientes,
cov(X, XY ) = E[Y ]V [X]
2. Si la función de densidad de una variable aleatoria X es simétrica con

respecto a E[X],
cov(X, X 2 ) = 2E[X]V [X]
3. Y finalmente las relaciones
1
X n+1 = nX n + Xn+1
n+1
n 2
2
nSn+1 = (n − 1)Sn2 + Xn+1 − X n
n+1
En primer lugar, al ser X, Y independientes tambien lo son X 2 y Y . Por ello
cov(X, XY ) = E[X 2 Y ] − E[X]E[XY ] = E[Y ]E[X 2 ] − E[Y ](E[X])2

es decir, cov(X, XY ) = E[Y ] E[X 2 ] − (E[X])2 = E[Y ]V [X].
En segundo lugar, si la función de densidad es simétrica con respecto a E[X]

E (X − E[X])3 = 0 = E X 3 − 3X 2 E[X] + 3X (E[X])2 − (E[X])3

3
= E X 3 − 3E X 2 E[X] + 2 (E[X])

3
con lo cual E X 3 = 3E X 2 E[X] − 2 (E[X]) .

cov(X, X 2 ) = E X 3 − E[X]E[X 2 ]
= 3E[X 2 ]E[X] − 2 (E[X])3 − E[X]E[X 2 ]
3
= 2E[X]E[X 2] − 2 (E[X])

= 2E[X] E[X 2 ] − (E[X])2
= 2E[X]V [X]
Por último,
n
1 1

n+1
1
X n+1 = Xi = Xi + Xn+1 = nX n + Xn+1
n + 1 i=1 n + 1 i=1 n+1

n+1

2 n+1 2
2
nSn+1 = Xi − X n+1 = Xi − X n + X n − X n+1
i=1 i=1

n+1
2 2
= Xi − X n + 2 X n − X n+1 Xi − X n + X n − X n+1
i=1
2
n

= (n − 1)Sn2 + Xn+1 − X n + 2 X n − X n+1 Xi − X n
i=1
2
+ 2 X n − X n+1 Xn+1 − X n + (n + 1) X n − X n+1
n

como Xi − X n = 0,
i=1
2
2
nSn+1 = (n − 1)Sn2 + Xn+1 − X n + 2 X n − X n+1 Xn+1 − X n
2
+ (n + 1) X n − X n+1
2
= (n − 1)Sn2 + Xn+1 − X n

+ X n − X n+1 2Xn+1 + (n − 1)X n − (n + 1)X n+1
realizando los reemplazos:
1
(n + 1)X n+1 = nX n + Xn+1 y X n − X n+1 = X n − Xn+1
n+1
2
2
nSn+1 = (n − 1)Sn2 + Xn+1 − X n

X n − Xn+1

+ 2Xn+1 + (n − 1)X n − nX n + Xn+1
n+1

2 Xn+1 − X n
= (n − 1)Sn + Xn+1 − X n −
2
Xn+1 − X n
n+1
n 2
= (n − 1)Sn +
2
Xn+1 − X n
n+1
Entrando en materia, teniendo en cuenta que E[Xi ] = μ, V [Xi ] = σ 2 , para

i = 1, 2, . . . , n, al considerar una muestra de tamaño n = 2,
1 2
2 2
(X1 − X2 )
S22 = Xi − X 2 =
2 − 1 i=1 2

X1 + X2 (X1 − X2 )2 1
cov X 2 , S22 = cov , = cov X1 + X2 , (X1 − X2 )2
2 2 4
1

= cov X1 + X2 , X12 − 2X1 X2 + X22
4
1

= cov(X1 , X12 ) − 2cov(X1 , X1 X2 ) + cov X1 , X22
4
1

+ cov(X2 , X12 ) − 2cov(X2 , X1 X2 ) + cov X2 , X22
4
1
= [2E[X1 ]V [X1 ] − 2E[X2 ]V [X1 ] − 2E[X1 ]V [X2 ] + 2E[X2 ]V [X2 ]]
4
porque X1 tiene la misma distribución de X2 y además son variables indepen-
dientes,
1
cov X 2 , S22 = 2μσ 2 − 2μσ 2 − 2μσ 2 + 2μσ 2 = 0
4

Por hipótesis de inducción cov X n , Sn2 = 0. Ahora para una muestra de
2

tamaño n + 1, cov X n+1 , Sn+1 =Δ

n 1 1 2
Δ = cov Xn + Xn+1 , (n − 1)Sn2 + Xn+1 − X n
n+1 n+1 n+1
n−1 n 2
= cov X n , Sn2 + cov X n , X n+1 − X n
n+1 (n + 1)2
n−1 1 2
+ cov Xn+1 , Sn2 + 2
cov Xn+1 , Xn+1 − X n
n(n + 1) (n + 1)

como cov X n , Sn2 = 0 y Xn+1 , Sn2 son independientes,
n 2
2
cov X n+1 , Sn+1 = cov X n , X n+1 − X n
(n + 1)2
1 2
+ cov X n+1 , X n+1 − X n
(n + 1)2
Ahora bien,
2 2

cov X n , Xn+1 − X n 2
= cov X n , Xn+1 − 2X n Xn+1 + X n

2
= cov X n , Xn+1 − 2cov X n , X n Xn+1
2

+ cov X n , X n
σ2
σ2
= −2E[Xn+1 ] + 2E X n
n n
σ2 σ2
= −2μ + 2μ =0
n n
2 2

cov Xn+1 , Xn+1 − X n 2
= cov Xn+1 , Xn+1 − 2X n Xn+1 + X n

2
= cov Xn+1 , Xn+1 − 2cov Xn+1 , X n Xn+1
2

+ cov Xn+1 , X n
= −2μσ 2 + 2μσ 2 = 0
luego
2
n 1
cov X n+1 , Sn+1 =0 2
+0 =0
(n + 1) (n + 1)2
Demostración (Teorema 1.4.16). Similarmente al punto de partida de la

demostración del teorema 1.4.2,

n
n

2
(Xi − Xj )2 = (Xi − X n ) − (Xj − X n )
i=1 i=1

n
Desarrollando el cuadrado allı́ indicado y como (Xi − X n ) = 0, entonces
i=1

n
n
(Xi − Xj )2 = (Xi − X n )2 + n(Xj − X n )2
i=1 i=1
luego

n
n
n
n
(Xi − Xj )2 = n (Xi − X n )2 + n (Xj − X n )2
j=1 i=1 i=1 j=1
n
= 2n (Xi − X n )2
i=1
En consecuencia
1
n n n
1
(Xi − X n )2 = (Xi − Xj )2
n − 1 i=1 2n(n − 1) j=1 i=1
Demostración (Teorema 1.5.1). Fijando un valor particular y, se construye

la variable aleatoria dicotómica Zi = I(−∞,y] (Xi ), i = 1, 2, . . . , n.
Cada una de las variables independientes Z1 , Z2 , . . . , Zn tiene distribución de
Bernoulli con parámetro FX (y), puesto que P [Zi = 1] = P [Xi ≤ y] = FX (y).
n
Adicionalmente Zi ∼ Bin(n, FX (y)) dada la independencia citada de las
i=1

n
variables Z1 , Z2 , . . . , Zn . Zi representa al número de observaciones mues-
i=1
trales menores o iguales al valor especı́fico y.
! "

n
Como el evento {Xk,n ≤ y} es equivalente al evento Zi ≥ k , entonces la
i=1
función de distribución de la k-ésima estadı́stica de orden corresponde a
n

FXk,n (y) = P [Xk,n ≤ y] = P Zi ≥ k
i=1
n
n j n−j
= [FX (y)] [1 − FX (y)]
j
j=k
Demostración (Teorema 1.5.2). La primera afirmación del teorema se re-

fiere a la función de densidad de la estadı́stica Xk,n , función que corresponde
a la derivada, con respecto a los valores particulares de Xk,n , de su función de
distribución FXk,n (y). Ası́ entonces
∂ FXk,n (y + h) − FXk,n (y)

fXk,n (y) = FX (y) = lim
∂y k,n h→0 h
P [y ≤ Xk,n ≤ y + h]
= lim
h→0 h
x x+h y y+t
Por medio de la distribución multinomial se calcula la probabilidad del evento

A(h) = {y ≤ Xk,n ≤ y + h}, evento descrito como
A(h) :“(k − 1) observaciones de la muestra son menores de y, una observación

pertenece al intervalo [y, y + h] y las restantes (n − k) observaciones
son mayores que y + h ”
n! k−1 n−k
P [A(h)] = [FX (y)] [FX (y + h) − FX (y)] [1 − FX (y)]
(k − 1)!1!(n − k)!
reemplazando FX (v) por F (v), entonces
P [A(h)] n! k−1 n−k F (y + h) − F (y)

lim = [F (y)] [1 − F (y)] lim
h→0 h (k − 1)!(n − k)! h→0 h
n!
= [FX (y)]k−1 [1 − FX (y)]n−k fX (y) = fXk,n (y)
(k − 1)!(n − k)!
La segunda parte del teorema que enuncia la función conjunta de densidad de

las estadı́sticas de orden j y k, fXj,n ,Xk,n (x, y) se demuestra de manera similar.
xk,n
y+t
x x+h xj,n
Tomando Δ = fXj,n ,Xk,n (x, y) y FXj,n ,Xk,n (u, v) = F (u, v), entonces
F (x + h, y + t) − F (x, y + t) − F (x + h, y) + F (x, y)
Δ= lim
h→0,t→0 ht
P [x ≤ Xj,n ≤ x + h, y ≤ Xk,n ≤ y + t]
= lim
h→0,t→0 ht
La probabilidad del evento A(h, t) = {x ≤ Xj,n ≤ x + h, y ≤ Xk,n ≤ y + t}

igualmente se calcula por medio de la distribución multinomial.
Dicho evento está descrito como
A(h, t) :“(j − 1) observaciones pertenecen al intervalo I1 , una observación

pertenece al intervalo I2 , una observación pertenece al I4 ,
(n − k) de las observaciones pertenecen al intervalo I5
y las restantes (k − j − 1) pertenecen al intervalo I3 ”
Para su cálculo es menester disponer de la siguiente relación de probabilidades

de pertenencia de una unidad al intervalo correspondiente.
Intervalo Probabilidad
(−∞, x] = I1 FX (x) = p1
(x, x + h] = I2 FX (x + h) − FX (x) = p2
(x + h, y] = I3 FX (y) − FX (x + h) = p3
(y, y + t] = I4 FX (y + t) − FX (y) = p4
(y + t, ∞) = I5 1 − FX (y + t) = p5
luego
n! (j−1) (k−j−1) (n−k)
P [A(h, t)] = p p2 p3 p4 p5
(j − 1)!1!(k − j − 1)!1!(n − k)! 1
si c(n, j, k)[FX (x)]j−1 = B(x), FX (v) = F (v), entonces D(h, t) es
[F (x + h) − F (x)][F (y) − F (x + h)]k−j−1 [F (y + t) − F (y)][1 − F (y + t)]n−k
entonces
A(h, t) D(h, t)
lim = B(x) lim
h→0,t→0 ht h→0,t→0 ht
D(h,t)
donde lim ht corresponde a

h→0,t→0

F (x+h)−F (x) F (y+t)−F (y)
lim h [F (y) − F (x + h)]k−j−1 t [1 − F (y + t)]n−k
h→0,t→0
esto es
D(h, t)
lim = [fX (x)][FX (y) − FX (x)]k−j−1 [fX (y)][1 − FX (y)]n−k
h→0,t→0 ht
es decir que fXj,n ,Xk,n (x, y) es
c(n, j, k)[FX (x)]j−1 [FX (y) − FX (x)]k−j−1 [1 − FX (y)]n−k fX (y)fX (x)I(x,∞) (y)
para 1 ≤ j < k ≤ n, con c(n, j, k) = n!/[(j − 1)!(k − j − 1)!(n − k)!].

La última parte es la generalización de los casos anteriores.
Igualmente con el apoyo de la distribución multinomial y teniendo en cuenta
que la función conjunta de densidad fX1,n ,X2,n ,... ,Xn,n (y1 , y2 , . . . , yn ) es
n
1 *
lim P [yi ≤ Xi,n ≤ yi + hi ]
h1 →0,h2 →0,... ,hn →0 )
n
hi i=1
i=1
fácilmente se deduce que

n
fX1,n ,X2,n ,... ,Xn,n (y1 , y2 , . . . , yn ) = n! fX (yi ) para y1 < y2 < · · · < yn
i=1
Demostración (Teorema 1.5.3). Al igual que en una demostración anterior,

se construye la variable aleatoria dicotómica Zi = I(−∞,xp ] (Xi ), i = 1, 2, . . . , n.
Como Zi ∼ Ber(FX (xp )), considerando los eventos
A : {Xj,n ≤ xp } y B : {Xk,n > xp }
ellos son tales que P [A ∪ B] = 1, por lo tanto
P [Xj,n ≤ xp ≤ Xk,n ] = P [A ∩ B] = P [A] + P [B] − 1 = P [A] − P [B c ]

luego
P [Xj,n ≤ xp ≤ Xk,n ] = P [Xj,n ≤ xp ] − P [Xk,n ≤ xp ]
como el evento A (similarmente el evento B) puede transcribirse como
A : “j o más observaciones son menores o iguales a xp ”, entonces
n n
n l
P [Xj,n ≤ xp ] = P Zi ≥ j = p (1 − p)n−l
i=1
l
l=j
por lo tanto
n
n

n l n l
P [Xj,n ≤ xp ≤ Xk,n ] = p (1 − p)n−l
− p (1 − p)n−l
l l
l=j l=k
como j < k,

k−1
n l
P [Xj,n ≤ xp ≤ Xk,n ] = p (1 − p)n−l
l
l=j
Demostración (Teorema 1.5.4). La función de distribución empı́rica puede

ser reconocida como:
n
Zi
i=1
Fn (x) = = Zn
n
siendo Zi = I(−∞,x] (Xi ) tal como se habı́a convenido en la sección referente a
la distribución de Fn (x).
Desde este punto de vista, al entenderse que Z1 , Z2 , . . . , Zn es una muestra
aleatoria de una población con distribución de Bernoulli de parámetro FX (x),
entonces el teorema de Khintchine garantiza que
p p
Zn −
→ FX (x), es decir que Fn (x) −
→ FX (x)
Demostración (Teorema 1.5.5). Puede consultarse en Probability and Sta-
tistical Inference de Robert Bartoszynski y Magdalena Niewiadomska-Bugaj
(1996) en las páginas 726 a 729.
Demostración (Teorema 1.5.6). En los términos de la demostración del teo-
rema 1.5.4 y teniendo en cuenta que
FX (x)[1 − FX (x)]
E[Fn (x)] = FX (x) y V [Fn (x)] =
n
son finitos, entonces a la luz del teorema del lı́mite central (Lindeberg-Lévy), la
sucesión {Zn }, siendo Zn ,
√
Fn (x) − FX (x) n[Fn ((x) − FX (x)]
Zn = √ =
FX (1−FX (x))
√ FX (1 − FX (x))
n

1.8 Ejercicios del capı́tulo

1. Demuestre que si la sucesión {Xn } converge en media cuadrática también
converge en probabilidad.
2. Demuestre que el promedio basado en una muestra de tamaño n de una
población con valor esperado μ y varianza σ 2 , converge en media cuadrática
a μ.
3. Si las variables aleatorias X1 , X2 , . . . , Xn constituyen una muestra aleato-
ria de una población con función de densidad,
fX (x) = 2x I(0,1) (x)
Determine la distribución muestral del mı́nimo de la muestra.
4. Continúe realizando la demostración del teorema 1.4.2
ria de una población con distribución Exponencial de parámetro θ, deter-
mine la distribución muestral del promedio de la muestra.
ria de una población con distribución Exponencial de parámetro θ, deter-
mine la distribución muestral del mı́nimo de la muestra.
ria de una población con distribución Uniforme en el intervalo (0, 1), de-
termine la distribución muestral del recorrido de la muestra.
8. Un dispositivo electrónico funciona a partir del funcionamiento de n com-
ponentes conectados en serie que funcionan de manera independiente. Si
el tiempo al fallar de cualquier componente se modela como una variable
aleatoria con distribución Exponencial de parámetro θ, determine el valor
esperado y la varianza del tiempo de funcionamiento del dispositivo.
9. Una muestra de 36 botellas corresponde a la lı́nea antigua de llenado A,
que estando el proceso bajo control estadı́stico el contenido de una de ellas
en ml se modela como una variable aleatoria con distribución Normal de
valor esperado μ y desviación estándar 12; igualmente se considera otra
muestra de 49 botellas de la nueva lı́nea de llenado B, que similarmente
estando el proceso bajo control estadı́stico el contenido de una de ellas
se modela como una variable aleatoria con distribución Normal de valor
esperado μ y desviación estándar 4. Determine la probabilidad de que los
promedios muestrales difieran a lo sumo en 3 ml.
10. En el laboratorio de control de calidad de una compañı́a que produce ele-
mentos para cierto tipo de retroproyector, se encienden simultáneamente
n bombillas. Utilizando el modelo Exponencial para describir el tiempo
de vida de la bombilla, determine el valor esperado del tiempo de vida de
la tercera bombilla en fallar.
1.8. EJERCICIOS DEL CAPÍTULO 43
11. El exámen de admisión de la Universidad Nacional de Colombia tiene un

tiempo lı́mite de dos horas y media y dentro de sus normas se establece
que ningún aspirante puede retirarse del aula antes de haber transcurrido
una hora de examen. Podrı́a pensarse que el modelo para simbolizar el
tiempo de permanencia del aspirante en el aula serı́a el modelo Exponen-
cial doblemente truncado. Sin embargo una buena elección la constituye
el modelo Exponencial desplazado. Teniendo en cuenta que el tiempo
medio de permanencia es de dos horas, ¿Cuál es la probabilidad de que el
docente que vigila el examen, en un aula con 25 aspirantes, no tenga que
pronunciar la frase: “Por favor suspendan porque el tiempo de examen ha
concluido”?.
La función de densidad de una variable aleatoria X con distribución Ex-
ponencial desplazada con parámetro θ = (θ1 , θ2 ), θ1 ∈ R, θ2 > 0, es:

1 −(x − θ1 )
fX (x, θ) = exp I(θ1 ,∞) (x)
θ2 θ2
12. Con referencia al ejercicio anterior, ¿Cuál es el tiempo medio de perma-

nencia en el aula del aspirante que se retira en primer lugar?.
13. Igualmente con referencia al ejercicio 11, ¿Cómo cambia la respuesta al
mismo y cómo cambia la respuesta al ejercicio 12, si se adopta el modelo
de Pareto?.
La función de densidad de una variable aleatoria X con distribución de
Pareto con parámetro θ = (θ1 , θ2 ), θ1 > 0, θ2 > 0, es:

θ2 θ1θ2
fX (x, θ) = I(θ1 ,∞) (x)
xθ2 +1
14. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleato-

ria de una población con función de distribución absolutamente continua,
¿Cuál es la probabilidad de que el máximo de la muestra exceda a la
mediana poblacional?.
15. Si las variables aleatorias X1 , X2 , . . . , Xn , tienen la misma varianza y si la
correlación entre cualquier par de variables tiene el mismo valor, demuestre
que dicha correlación tiene como cota inferior a −1/(n − 1).
ria de una población con distribución de Bernoulli de parámetro θ, deter-
n
mine la probabilidad de que X1 = 1 dado que Xi = j, j = 1, 2, . . . , n.
i=1

ria de una población con distribución de Poisson con parámetro θ, de-
muestre que para cualquier entero positivo k, k ≤ n, la distribución

n
condicional de X1 , X2 , . . . , Xn dado que Xi = k, corresponde a una
i=1
distribución multinomial.
18. Un procedimiento de control estadı́stico de calidad establece para cierto

proceso de fabricación, la selección de manera aleatoria y sin reemplazo de
cinco amortiguadores de un lote de inspección que contiene seis de clase
A y ocho de clase B, para ser examinados en el laboratorio. Si X 5 es
la proporción muestral de amortiguadores de clase A, determine el valor
esperado y la varianza de dicha estadı́stica.
ria de una población con distribución Binomial negativa de parámetros k

n
y π, determine la distribución muestral de la estadı́stica Tn = Xi .
i=1

ria de una población con valor esperado μ y varianza 4, determine el
tamaño mı́nimo de la muestra para el cual la probabilidad de que el
valor esperado y el promedio de la muestra no difieran en más de 0.1,
sea superior a 0.95.
21. Con referencia al ejercicio anterior, ¿Cuál debe ser el tamaño de la muestra,
si la varianza fuese el doble?.
22. La fracción de baldosas de cerámica con imperfectos producidas por una
compañı́a, es del 0.8% cuando el proceso está bajo control estadı́stico.
Determine el tamaño de muestra mı́nimo para el cual la probabilidad de
que la fracción con imperfectos y la proporción de baldosas con imperfectos
en la muestra no difieran en más del 1%, sea superior a 0.95.
23. Una norma particular de metrologı́a determina que deben realizarse 36
mediciones de la emisión de ondas de un horno de microondas. El equipo
debe estar calibrado de tal forma que la variabilidad en cada medición,
cuantificada por medio de la desviación estándar es de σ unidades. Utilice
la desigualdad de Chevyshev y el teorema del lı́mite central en forma
comparativa, para establecer el valor mı́nimo de la probabilidad de que el
promedio de las mediciones difiera a lo sumo del verdadero valor promedio
en σ5 unidades. ¿Cuál es la razón de la diferencia de los resultados?.
24. Con referencia al ejercicio anterior, también utilizando en forma
comparativa la desigualdad de Chevyshev y el teorema del lı́mite cen-
tral, determine cuál debe ser el número de mediciones para que el valor
mı́nimo de la probabilidad de que el promedio de las mediciones difiera a
lo sumo del verdadero valor promedio en σ6 unidades, sea de 0.95. ¿Cuál
es la razón de la diferencia de los resultados?.
25. Un procedimiento de control estadı́stico de calidad ha establecido para la
inspección del proceso de elaboración de láminas de madera aglomerada,
un tamaño de muestra de 125 láminas. Si además se ha reconocido que
el modelo de Poisson de parámetro 3 es un buen modelo para describir
el número de defectos por lámina, determine la probabilidad de que el
promedio de defectos por lámina en la muestra sea menor de 2.
26. Siendo dos minutos y cuarenta y cinco segundos el tiempo medio de

transacción en un cajero electrónico y que el modelo Exponencial es un
modelo admisible para representar el tiempo que utiliza un cliente en la
transacción, determine la probabilidad de que se requieran más de 55
minutos para atender una cola de 16 clientes, pues la persona que ocupa
el puesto 16 debe decidir si espera o no, en razón a que cuenta únicamente
con los citados 55 minutos para realizar la diligencia.

ria de una población con distribución de Bernoulli de parámetro θ, ¿Cuál
es la distribución conjunta de X1 , X2 , . . . , Xn y cuál es la distribución de

n
la estadı́stica Xi ?.
i=1
28. En el perı́odo preelectoral de la elección presidencial del año 2002 en

Colombia, los estimativos del favoritismo del candidato en definitiva elegi-
do estuvieron persistentemente cerca del 52%. ¿Con cuál tamaño de mues-
tra se hubiese podido predecir que no habrı́a segunda vuelta, suponiendo
como cierta la información que se disponı́a en ese momento y adoptando
una probabilidad del 95%?.
29. El tercer momento central es un elemento ligado a la descripción de la

simetrı́a de la función de densidad de una variable aleatoria. ¿Qué puede
afirmarse de la simetrı́a de la función de densidad del promedio de una
muestra de una población con distribución de Bernoulli de parámetro θ,
cuando el tamaño de la muestra crece?.
30. Determine el valor esperado y la varianza de la desviación estándar de

una muestra aleatoria de una población con distribución normal de valor
esperado μ y varianza σ 2 .

1
fX (x) = I{1,2,... ,k} (x)
k
determine el valor esperado del semirango de la muestra.

ria de una población con valor esperado μ y varianza finitos, muestre que
las estadı́sticas,
2 n
• iXi
n(n + 1) i=1
6 n
• i 2 Xi
n(n + 1)(2n + 1) i=1
convergen en probabilidad a μ.
33. Si las variables X1 , X2 , . . . , constituyen una sucesión de variables aleato-

rias, tales que P [Xi = i] = P [Xi = −i] = 12 , entonces E[Xi ] = μ = 0,
n X
i
i = 1, 2, . . . . Muestre que no converge en probabilidad a μ = 0.
i=1 n
ria de una población con distribución Uniforme en el intervalo (0, θ),
muestre que el máximo de la muestra converge en probabilidad a θ.
35. Si las variables aleatorias X1 , X2 , . . . , Xn , constituyen una población con
mediana θ, muestre que la mediana de la muestra converge en probabilidad
a θ.
ria de una población con distribución Uniforme en el intervalo (0, 1), de-
termine el valor al cual la media geométrica de la muestra Gn converge en
probabilidad.
+
, n
,
Gn = - n
Xi
i=1

ria de una población con distribución Exponencial con parámetro θ, muestre
que la variable aleatoria,
√ d
Qn = n θX n − 1 − → Z ∼ N (0, 1)
38. La cantidad de café molido que se empaca en bolsas de 500 gr mediante

un proceso que estando bajo control estadı́stico, puede modelarse como
una variable aleatoria con valor esperado 500 y desviación estándar 10.
Con base en una muestra de 100 bolsas determine la probabilidad de que
el promedio de la muestra esté entre 495 gr y 504 gr.
ria de una problación con distribución de Bernoulli de parámetro θ, muestre
que la estadı́stica,

Xn − θ
Qn = .
X n 1 − X n /n
converge en distribución a una variable aleatoria con distribución Normal

estándar.
ria de una problación con distribución de Poisson de parámetro θ, muestre
que
p
exp −X n − → P [X1 = 0]

fX (x) = x exp(−x) I(0,∞) (x)

determine el valor de la constante d, tal que P X n > d = 0.95.
fX (x) = 12x2 (1 − x) I(0,1) (x)

n
determine el valor del tamaño de muestra tal que P Xi > 4
5n ≤ 0.05.
i=1
43. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-

ción Uniforme en el intervalo (0, θ). Determine la función de distribución
de la variable aleatoria Wn = n(θ − Xn,n ). ¿Cómo se distribuye la variable
aleatoria a la cual la sucesión W1 , W2 , . . . , Wn , . . . converge en distribu-
ción?.
Capı́tulo 2
ESTIMACIÓN PUNTUAL
DE PARÁMETROS
La primera sección del capı́tulo anterior mencionó que los modelos son elementos
conexos con los quehaceres de la Ciencia. De ı́ndole diferente y con propósitos
distintos, los modelos son artificios que cooperan en la descripción y explicación
de la realidad al representarla de una manera muy peculiar, que posibilitan
descripciones y explicaciones generales o minuciosas, según sea el propósito.
Entre otras funciones, el modelo subsume en una especie de ideograma, una
variedad de casos similares. Como modelo especial el modelo probabilı́stico,
por su parte, simboliza mediante una expresión algebraica el comportamiento
genérico de variables que aluden mediciones, conteos, o valoraciones de unidades
estadı́sticas; pero igualmente el modelo probabilı́stico puede entenderse como la
representación del compendio de situaciones individuales, es decir constituye
una familia de modelos particulares de la misma naturaleza, modelos que se
pueden singularizar determinando valores especı́ficos de los parámetros, aquellas
constantes que son elementos integrantes del modelo.
El vocablo puntual, que adjetiva la estimación motivo de este capı́tulo, tiene
en el Castellano varias acepciones. El sentido que se le debe otorgar dentro del
contexto de la Inferencia estadı́stica es el de perteneciente o relativo al punto,
por tratarse de la estimación de un parámetro por medio de un valor particular
de una estadı́stica, un punto del recorrido de ella, y también para distinguirla
de otra forma de estimación, la estimación por intervalo; por ello es que algunos
traductores utilizan la expresión de estimación de punto.
En ese sentido la estimación puntual de los parámetros puede interpretarse
como la adopción de un modelo individual elegido dentro de una familia, para
representar una realidad particular, elección fruto de la tasación de los respec-
tivos parámetros por medio de un cálculo realizado con los valores observados de
la muestra aleatoria, a través de la expresión que define la estadı́stica facultada
como estimador.
La finalidad de este capı́tulo es la exposición de algunos criterios que per-
49
50 CAPÍTULO 2. ESTIMACIÓN PUNTUAL DE PARÁMETROS
miten estudiar el desempeño de estadı́sticas propuestas como estimadores, cri-

terios que como consecuencia son algunos de los principios que facultan defini-
tivamente a una estadı́stica para desempeñarse como estimador. La estadı́stica
propuesta, o en examen, es habitualmente producto de la utilización de un
método de construcción de estimadores. La parte inicial del capı́tulo está dedi-
cada a la presentación e ilustración de los métodos más corrientes en la construc-
ción de estimadores y la segunda parte substancial del capı́tulo está dedicada al
estudio de esos criterios evaluativos de un estimador.
Como ya se ha venido insinuando, se acude al concepto de variable aleato-
ria para representar una variable de interés que corresponde a la respuesta de
cualquier unidad estadı́stica, variable que al denotarse como X, su función de
densidad 1 , su función de distribución, su función generatriz de momentos y su
función caracterı́stica serán escritas casi siempre y de ahora en adelante como,
fX (x, θ), FX (x, θ), MX (t, θ) y φX (t, θ) respectivamente, para enfatizar el hecho
de que las funciones asociadas al modelo asumido como modelo poblacional de-
penden, además de los valores para los cuales existen las mencionadas funciones,
de las constantes inherentes al modelo dispuestas en el vector de k componentes
θ = (θ1 , θ2 , . . . , θk ) . La finalidad de la estimación puntual de parámetros es
estimar de la manera más eficiente los componentes del vector o una función
r(θ) del mismo, a partir de la información disponible en la muestra.
Como preámbulo de la primera sección concerniente a los métodos tradi-
cionales de construcción de estimadores, se presenta la definición inicial para la
aprehensión de los elementos conceptuales integrantes del proceso de estimación
estadı́stica.
Definición 2.0.1. Siendo X una variable aleatoria cuya función de densidad

es fX (x, θ), se denomina espacio del parámetro al conjunto de todos los
posibles valores de los componentes del vector θ, denotado como Θ, Θ ⊆ Rk
Ejemplo 2.0.1. El modelo Uniforme es un modelo apto para emular vari-

ables que se distinguen por presentar frecuencias indiferentes para sus distintos
valores. Considerando la variable aleatoria X con distribución Uniforme en el
intervalo (0, θ), es evidente a partir de su función de densidad,
1
fX (x, θ) = I(0,θ) (x)
θ
que el cero es una frontera fija y que el parámetro θ se desempeña como la
frontera superior del recorrido de la variable, el cual asume un valor especı́fico
ante una situación también especı́fica. En este caso el parámetro θ es un real
positivo, por consiguiente, el espacio del parámetro es el conjunto:
Θ = {θ|θ > 0}
1 Este texto, con el objeto de simplificar el lenguaje, utiliza la expresión función de densidad
para referirse a la función de densidad de una variable aleatoria continua, a la función de masa,
de probabilidad o de cuantı́a de una variable aleatoria discreta. El contexto de su utilización
revelará el tipo de variable en referencia o se precisará cuando sea requerido.
2.1. MÉTODOS CLÁSICOS PARA CONSTRUIR ESTIMADORES 51
Ejemplo 2.0.2. El modelo Gaussiano comentado y utilizado profusamente

representa variables cuyas frecuencias, con marcada simetrı́a, resaltan los valores
intermedios y marginan los valores inferiores y superiores. Como es conocido son
muchas las variables factibles de ser abstraı́das por este modelo. Considerando
la variable aleatoria X con distribución Normal de valor esperado θ1 y varianza
θ2 , es sabido que θ1 se desempeña como punto de simetrı́a de su función de
densidad
2
1 1 (x−θ1 )
fX (x, θ) = √ √ e− 2 θ2
2π θ2
y θ2 regula su grado de apuntamiento como consecuencia de su dispersión. El

modelo admite cualquier real como punto de simetrı́a, mientras que exige un
valor positivo para θ2 ; por consiguiente, el espacio del parámetro es el conjunto
Θ = {θ1 , θ2 |θ1 ∈ R, θ2 > 0}
θ2
θ1
2.1 Métodos clásicos para construir estimadores

2.1.1 El método de máxima verosimilitud
Con la denominación de método de máxima verosimilitud resultado de
una amplia aceptación de la traducción por verosimilitud del término inglés
likelihood, es el método de construcción de estimadores más difundido y tal
vez más utilizado, aunque en forma muy particular ya habı́a sido concebido y
empleado por Gauss, se debe realmente a Fisher quien lo hizo público en la
primera década del siglo XX. Por su fundamento y por producir estimadores
que poseen propiedades especiales, propiedades que se estudiarán más adelante
se convierte en un método con atractivos propios.
Definición 2.1.1. Siendo X1 , X2 , . . . , Xn una sucesión de variables aleatorias

idénticamente distribuidas pero no necesariamente independientes, la función
conjunta de densidad de X1 , X2 , . . . , Xn se conoce con el nombre de función
de verosimilitud de X1 , X2 , . . . , Xn .
Definición 2.1.2. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

con función de densidad fX (x, θ), θ ∈ Θ, la función de verosimilitud de la
muestra se denota y corresponde a:
n
L(θ; x1 , x2 , . . . , xn ) = fX (xi , θ)
i=1
Acudiendo nuevamente a la primera sección del capı́tulo anterior para

tener presente el sentido semántico que allı́ se aclaró, donde estimar significa la
realización formal de un avalúo, como proceso expreso, preciso y determinado
que exige contar con información, los valores particulares x1 , x2 , . . . , xn , valores
ya observados de las variables constituyentes de la muestra aleatoria, son el
acervo de información con el cual se cuenta una vez haya concluido el acopio y
registro de la misma en el estudio o investigación particular. En consecuencia
dichos valores pueden asumirse como fijos en la función de verosimilitud y es
por eso que en muchos textos se le considera como función de θ exclusivamente
y suele expresarse como L(θ). Este texto utilizará en algunas oportunidades la
expresión condensada L(θ) o simplemente L a cambio de L(θ; x1 , x2 , . . . , xn ).
Definición 2.1.3. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

con función de densidad fX (x, θ), θ ∈ Θ, el estimador T = t(X1 , X2 , . . . , Xn )
se dice que es el estimador máximo-verosı́mil de θ (MLE de θ, conservando
las siglas inglesas), si el valor particular de t = t(x1 , x2 , . . . , xn ) es tal que el
supremum de L,
sup{L(θ)|θ ∈ Θ}
se consigue cuando θ = t, en cuyo caso t se denomina estimación máximo-

verosı́mil de θ.
El derrotero de la estimación máximo-verosı́mil puede percibirse inicialmente

a través del siguiente ejemplo.
Ejemplo 2.1.1. Como parte de una estrategia de mercadeo, una marca de

pilas obsequia a la persona que presente 10 pilas usadas impresas con el rótulo
de promoción “sello de oro”, un paquete de cuatro pilas nuevas. Para imprimir
en las pilas el rótulo se dispone de una máquina rotuladora que tiene tres niveles:
alto, medio y bajo; la máquina estampa aleatoriamente el rótulo promocional
en el nivel alto, medio y bajo respectivamente al 75%, 50% y 25% de las pilas.
El comité ejecutivo de la empresa, basado en la información de las ventas,
determina el nivel en que debe operar la rotuladora en un periodo determinado.
Un comprador de un paquete desea estimar el nivel en el cual está operando la
rotuladora. Para ello construye la tabla 2.1 basado en que el número de pilas
rotuladas como “sello de oro”en un paquete de cuatro se puede modelar como
una variable aleatoria X distribuida binomialmente con n = 4 y probabilidad
de éxito θ. En este caso particular el espacio del parámetro es Θ = { 14 , 12 , 34 }.
Si el comprador sólo dispone de un paquete de cuatro pilas para inferir el nivel
de la rotuladora, sus estimaciones máximo-verosı́miles serán:

1
o equivalentemente nivel bajo, si x = 0 o si x = 1
4
1
o equivalentemente nivel medio, si x = 2
2
3
o equivalentemente nivel alto, si x = 3 o si x = 4
4
x
θ 0 1 2 3 4
1
4 0.316406 0.421875 0.210938 0.046875 0.003906
1
2 0.062500 0.250000 0.375000 0.250000 0.062500
3
4 0.003906 0.046875 0.210938 0.421875 0.316406
Tabla 2.1: Tabla de compilación de valores de una función de densidad Binomial

con n = 4 y probabilidad de éxito θ
justamente porque para un valor especı́fico x, la estimación corresponde a aque-

lla donde la probabilidad es máxima.
El éxito de la promoción fue tal que una compañı́a de gaseosas acudió a la misma
estrategia, obsequiando una canasta de 30 unidades a la persona que presente
75 tapas con la leyenda “Apaga gratis tu sed”. A diferencia de la anterior, la
rotuladora de la compañı́a de gaseosas tiene la particularidad de que el nivel de
estampación se puede ajustar a cualquier porcentaje. Igualmente a partir del
número de botellas cuyas tapas contienen la leyenda de la promoción en una
canasta de 30 unidades, un comprador de una canasta desea estimar el nivel en
el cual está operando la rotuladora.
Para este caso ya no es posible construir una tabla como la tabla 2.1, porque
el espacio del parámetro es un conjunto infinito, Θ = {θ|0 < θ < 1}. Se po-
drı́a construir una tabla similar bajo una selección de valores particulares de
θ, entonces, denotando como X: número de botellas cuyas tapas contienen la
leyenda promocional en una canasta de 30 unidades, los valores de la función

30 x
L(θ) = P [X = x] = θ (1 − θ)30−x
x
vistos como los componentes de una fila en una tabla similar a la tabla 2.1,
son los valores de una función de densidad para un valor especı́fico de θ. Una
columna de una tabla construida con algunos valores de θ, estarı́a constituida
por un conjunto de valores de funciones de densidad calculados con distintos
valores del parámetro θ y fijo el valor de x. Leı́da verticalmente esta tabla,
mostrarı́a el máximo del citado conjunto, la mayor probabilidad, indicativa de

que su correspondiente valor de θ es el valor más verosı́mil bajo las condiciones
mencionadas.
Como para efectos de esta estimación no existe la posibilidad de elegir valores
particulares del parámetro, se acude al Cálculo diferencial y en esta forma el
valor de θ para el cual L(θ) sea máxima corresponde al valor más verosı́mil del
nivel de estampación. Por ejemplo, si en una canasta se encuentran seis botellas
cuyas tapas están marcadas con la leyenda promocional,

30 6
L(θ) = P [X = 6] = θ (1 − θ)24
6
función cuya primera derivada es

30
5
L (θ) = 6θ (1 − θ)2 4 − 24θ6 (1 − θ)2 3
6
derivada que es nula cuando θ = 15 , y en ese punto la función L(θ) tiene máximo,
lo cual significa que el valor más verosı́mil del nivel de estampación es del 20%,
cuando se dispone únicamente de la información relativa a una canasta que
contiene seis unidades premiadas.
El anterior y los cuatro ejemplos siguientes, a la luz de la definición 2.1.3

mencionan el máximo de un conjunto o función, teniendo en cuenta que cuando
un conjunto posee máximo, el cual pertenece al conjunto, el supremum de dicho
conjunto es el mismo máximo.
Lema 2.1.1. Si t hace máxima a L(θ), t igualmente hace máximo a ln L(θ)
Ejemplo 2.1.2. Se toma una muestra de tamaño tres de una población con
distribución de Poisson de parámetro θ cuyos los resultados son, x1 = 2, x2 = 0,
x3 = 5. Determinar la estimación máximo-verosı́mil de θ.
2 −θ 0 −θ 5 −θ
θ e θ e θ e θ7 e−3θ
L(θ) = =
2! 0! 5! 2!5!
1

L (θ) = 7θ6 e−3θ − 3θ7 e−3θ
2!5!
L (θ) = 0 cuando θ = 0 o cuando θ = 73 . Luego, la estimación máximo-verosı́mil

de θ es 73 , el valor θ = 0 no es un valor admisible por el modelo de Poisson porque
θ ∈ Θ = {θ|θ > 0}
Ejemplo 2.1.3. Determinar el MLE de θ a partir de una muestra aleatoria

X1 , X2 , . . . , Xn de una población con función de densidad
fX (x, θ) = θx (1 − θ)1−x I{0,1} (x), θ ∈ Θ = {θ|θ ∈ (0, 1)}

L(θ; x1 , x2 , . . . , xn ) = θx1 (1 − θ)1−x1 θx2 (1 − θ)1−x2 . . . θxn (1 − θ)1−xn

n n
xi n− xi
= θi=1 (1 − θ) i=1
n

n
ln L(θ; x1 , x2 , . . . , xn ) = xi ln θ + n − xi ln(1 − θ)
i=1 i=1

n
n
xi n− xi
∂ i=1 i=1
ln L(θ; x1 , x2 , . . . , xn ) = −
∂θ θ 1−θ
n
n
xi n− xi
∂2 i=1 i=1
ln L(θ; x1 , x2 , . . . , xn ) = − − <0
∂θ2 θ2 (1 − θ)2
lo cual garantiza la existencia del máximo de la función ln(L(θ; x1 , x2 , . . . , xn )).

Luego ln L(θ) tiene máximo cuando

n
n
xi n− xi
i=1 i=1
=
θ 1−θ
o de otra manera cuando
1 n
−1=
n −1
θ
xi
i=1
1

n
entonces ln L(θ) tiene máximo en θ = n xi . Es decir, el estimador máximo-
i=1
verosı́mil de θ es X n , llamado en este caso proporción muestral .

e−θ θx
fX (x, θ) = I{0,1,2,... } (x), θ ∈ Θ = {θ|θ > 0}
x!

e−θ θx1 e−θ θx2 e−θ θxn
L(θ; x1 , x2 , . . . , xn ) = ...
x1 ! x2 ! xn !
n
xi
−nθ
e θi=1
= )
n
xi !
i=1
n
n
ln L(θ; x1 , x2 , . . . , xn ) = xi ln θ − nθ − ln xi !
i=1 i=1

n
xi
∂ i=1
ln L(θ; x1 , x2 , . . . , xn ) = −n
∂θ θ
n
xi
∂2 i=1
ln L(θ; x1 , x2 , . . . , xn ) = − <0
∂θ2 θ2
con lo cual se garantiza la existencia del máximo de ln L(θ; x1 , x2 , . . . , xn ) en

n
n
θ = n1 xi , es decir el MLE de θ es n1 Xi .
i=1 i=1

fX (x, θ) = θxθ−1 I(0,1) (x), θ ∈ Θ = {θ|θ > 0}
Como en los casos anteriores al hacer uso del Cálculo diferencial se deduce que
el MLE de θ es
n
− n
)
ln Xi
i=1
Es evidente el respaldo que el Cálculo diferencial prestó para la construcción

de los estimadores máximo-verosı́miles en los ejemplos anteriores, tratándose de
la herramienta matemática central del procedimiento, pues la consecución de
estimadores de esta naturaleza es en sı́ uno de los denominados problemas de
máximos y mı́nimos. Sin embargo, no siempre es pertinente la utilización de
esta herramienta, por ejemplo en un caso particular en el cual la función de
verosimilitud no sea diferenciable. Los siguientes ejemplos muestran una forma
alternativa de encontrar un MLE.
fX (x, θ) = I[θ− 12 ,θ+ 12 ] (x), θ ∈ Θ = {θ|θ ∈ R}
n
L(θ; x1 , x2 , . . . , xn ) = I[θ− 12 ,θ+ 12 ] (xi )
i=1
fX (x, θ)
| | |
θ− 1
2 θ θ+ 1
2
x
Figura 2.1: Gráfica de la función de densidad correspondiente al ejemplo 2.1.6
como θ − 1
2 ≤ xi ≤ θ + 12 , i = 1, 2, . . . , n entonces
1 1
θ− ≤ xi implica θ ≤ xi +
2 2
1 1
y θ + ≥ xi implica θ ≥ xi −
2 2
luego xi − 1
2 ≤ θ ≤ xi + 1
2 para i = 1, 2, . . . , n, particularmente
1 1
xn,n − ≤ θ ≤ x1,n +
2 2
de tal manera que la función de verosimilitud se puede expresar como
L(θ) = I[xn,n − 12 ,x1,n + 12 ] (θ)
L(θ)
| | |
xn,n − 1
2 x1,n + 1
2 θ
Figura 2.2: Gráfica de la función de verosimilitud correspondiente al ejemplo

2.1.6
Como se deduce de la figura 2.2, cualquier valor entre xn,n − 12 y x1,n + 12 hace
máxima la función de verosimilitud. Como el papel que desempeña el parámetro
es la determinación de la posición de la función de densidad, que coincide con

el centro del recorrido de la variable, es razonable asumir como MLE de θ a
X1,n + Xn,n
2
1
fX (x, θ) = I(0,θ) (x), θ ∈ Θ = {θ|θ > 0}
θ
n n
1
L(θ; x1 , x2 , . . . , xn ) = I(0,θ) (xi )
θ i=1
Como 0 < xi < θ, en particular xn,n < θ, luego

n
1
L(θ; x1 , x2 , . . . , xn ) = I(xn,n ,∞) (θ)
θ
n
1
El estimador máximo-verosı́mil de θ es Xn,n , porque el sup(L(θ)) = xn,n .
L(θ)
xn,n θ
Figura 2.3: Gráfica de la función de verosimilitud correspondiente al ejemplo

2.1.7
Teorema 2.1.1 (Principio de invarianza de un MLE). Si X1 , X2 , . . . , Xn

es una muestra aleatoria de una población con función de densidad fX (x, θ),
Tn = t(X1 , X2 , . . . , Xn ) un MLE de θ, θ ∈ Θ, Θ ⊆ R, y si r(θ) es una función
uno a uno, entonces r(Tn ) es el estimador máximo-verosı́mil de la imágen de θ
bajo la función r.
De manera más general, este principio de invarianza de los estimadores
máximo-verosı́miles, se puede enunciar como lo establece el siguiente teorema.

(1) (2) (k)
Teorema 2.1.2. Siendo Tn = Tn , Tn , . . . , Tn un MLE de θ, donde
(j)
Tn = tj (X1 , X2 , . . . , Xn ) para cualquier 1 ≤ j ≤ k, un estimador basado
en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densi-
dad fX (x, θ), θ = (θ1 , θ2 , . . . , θk ) . Si la función r(θ) = (r1 (θ), r2 (θ), . . . , rl (θ)),
1 ≤ l ≤ k entonces el MLE de la imágen de θ bajo r es
(r1 (Tn ), r2 (Tn ), . . . , rl (Tn ))
Ejemplo 2.1.8 (Estimación en muestras censuradas). Para concluir el

tema del método de máxima verosimilitud, se presenta una breve alusión a
las muestras censuradas. En algunas aplicaciones como las relacionadas con los
ensayos clı́nicos, con el análisis de sobrevivencia o con algunas investigaciones de
laboratorio, el acopio de la información pertinente consiste en obtener el valor
de la medición del tiempo de duración de algún evento vital o biológico de cada
una de las n unidades estadı́sticas elegidas como tamaño de muestra, sólo que
al finalizar el tiempo t establecido para el estudio, k < n de las unidades presen-
tan valores en la duración inferiores a t, porque las (n − k) unidades restantes
superaron el tiempo establecido pero a causa de la finalización del estudio no
se conocen con exactitud sus valores. También se presentan situaciones en las
cuales el estudio finaliza cuando únicamente k ≤ n de las unidades estadı́sticas
hayan concluido su observación, faltando las restantes (n − k) unidades. En
cualquiera de las dos situaciones se habla de una muestra censurada.
Cuando t se ha establecido como un tiempo fijo, k representada por la variable
K puede entenderse como una variable aleatoria y se habla en este caso de una
muestra censurada del tipo I . Si el número de unidades k necesario para
concluir el estudio se fija de antemano y el tiempo correspondiente t represen-
tado por la variable T es considerado como una variable aleatoria, entonces la
muestra recibe el nombre de muestra censurada del tipo II .
Siendo X la variable aleatoria que representa la duración del evento vital o
biológico de cualquier unidad estadı́stica, el valor x1,n representa la duración
de la unidad con menor valor, x2,n representa la duración de la unidad con el
siguiente valor, y ası́ sucesivamente hasta xk,n que representa la duración de la
última unidad con mayor duración inferior al tiempo t. Las restantes (n − k)
unidades, tienen una duración mayor al tiempo t, duración que no se puede
establecer por la culminación del acopio la de información del estudio.
Considerando como objeto una muestra aleatoria censurada del tipo II, fijando
los valores de k y n, como también asumiendo el modelo del tipo Exponen-
cial para representar la duración del evento como la variable aleatoria X, con
función de densidad,
1 −x
fX (x, θ) = e θ I(0,∞) (x)
θ
se busca estimar el parámetro θ, bajo estas condiciones. Para determinar un

estimador máximo-verosı́mil del parámetro, la función de verosimilitud acorde
con el tipo de muestra, está constituida por el producto de dos factores:

k n xk,n
n! 1 − xi,n
e θ y e− θ
(n − k)! i=1 θ
i=k+1
El primer factor es la parte de la función de verosimilitud correspondiente a las

k unidades con duración inferior al tiempo de corte; la presencia del coeficiente
n!
del producto de densidades radica en el hecho de que hay (n−k)! formas de
tener k unidades de un total de n con tiempos inferiores al citado corte, por
tratarse de k-uplas ordenadas sin repetición. El segundo factor corresponde a
la probabilidad de que (n − k) unidades tengan una duración superior a xk,n
x
debido a que P [X > x] = e− θ . De esta manera la función de verosimilitud de
las n variables aleatorias es:
k n xk,n
n! 1 − xi,n
L(θ; x1 , x2 , . . . , xn ) = e θ e− θ =L
(n − k)! i=1 θ
i=k+1

1
k k
n! 1 (n − k)xk,n
L= exp − xi,n exp −
(n − k)! θ θ i=1 θ
k
1
k
n! 1
L= exp − xi,n + (n − k)xk,n
(n − k)! θ θ i=1
Procediendo de la manera usual se puede deducir que el MLE de θ con base en

una muestra aleatoria censurada del tipo II bajo este modelo Exponencial es

k
Xi,n + (n − k)Xk,n
i=1
Tn =
k
Por supuesto si se asume otro modelo para describir la duración del evento vital
o biológico, la determinación del correspondiente MLE dependerá del referido
modelo, pero el bosquejo aquı́ presentado se mantiene.
Nota. La denominada función de verosimilitud en el ejemplo anterior referente
a una estimación en una muestra censurada, no es una función de verosimili-
tud estrictamente hablando. Es una función de cuasiverosimilitud, cuyo
máximo reside en una estimación cuasimáximo-verosı́mil. Precisamente
para denotar a un estimador de esta naturaleza, se utiliza la sigla QMLE (qua-
si maximum likelihood estimator). Incorrectas funciones de verosimilitud
son propias de situaciones cuando la función de verosimilitud es supremamente
complicada, cuando hay presencia de datos censurados, cuando se realizan al-
gunos estudios basados en simulación o cuando se requiere de excesivo cómputo
estadı́stico para determinar una estimación máximo-verosı́mil y se acude a una
función de cuasiverosimilitud para simplificarlo.
2.1.2 El método de los momentos

Antes de la divulgación del método de máxima verosimilitud, surgió el método
más antiguo de construcción de estimadores, denominado el método de los
momentos, que fue propuesto y utilizado por Pearson a finales del siglo XIX.
En casi todos los textos se le describe como un método que deduce los esti-
madores por medio de un eje consistente en igualdades algebraicas de momentos
muestrales con momentos poblacionales. Este texto sin apartarse radicalmente
del proceso tradicional, fundamenta el método y por lo tanto su procedimiento
en la convergencia en probabilidad de los momentos muestrales a sus respec-
tivos momentos poblacionales. Antes de exponer la idea del método es preciso
hacer referencia a dos teoremas que auxilian la fundamentación de método y su
aplicación.
(j)
Teorema 2.1.3. Considerando las variables aleatorias Xn , Xj , j = 1, 2, . . . , k,
(1) (2) (k)
y la función g : Rk −→ R continua, tal que tanto g(Xn , Xn , . . . , Xn ) como
(j) p
g(X1 , X2 , . . . , Xn ) sean variables aleatorias, entonces si Xn − → Xj implica que
p
g(Xn(1) , Xn(2) , . . . , Xn(k) ) −
→ g(X1 , X2 , . . . , Xn )
p p
Corolario 2.1.3.1. Si Xn −
→ X y Wn −
→ W entonces
p
1. Xn + Wn −
→X +W
p
2. Xn Wn −
→ XW
p
3. aXn + bWn −
→ aX + bW ; a, b constantes
p
4. Xn
Wn −
→ X
W ; P [Wn = 0] = P [W = 0] = 1
p
5. Xn2 −
→ X2
p
6. 1
Xn −
→ 1
X; P [Xn = 0] = P [X = 0] = 1

con función de densidad fX (x, θ). Existiendo el momento μ2r = E X 2r ,
r = 1, 2, . . . ,
1 r p
n
Xi − X n − → μr
n i=1
El método de los momentos consiste fundamentalmente en determinar las es-

tadı́sticas que convergen en probabilidad a cada componente θj , j = 1, 2, . . . , k,
del parámetro θ, a partir de un sistema de expresiones
p
M1 −
→ μ1
p
M2 −→ μ2
..
.
p
Mk −
→ μk
sistema fundamentado en los enunciados de los teoremas de Kintchine y 1.4.5

de la página 14.
En la determinación de las estadı́sticas en consideración, también se puede
incluir en el sistema de expresiones el hecho de que
p
Mr −
→ μr
como lo enuncia el teorema anterior.

con función de densidad
θ2θ1 θ1 −1 −θ2 x
fX (x, θ) = x e I(0,∞) (x)
Γ(θ1 )
determinar los estimadores de los componentes θ1 , θ2 del vector θ = (θ1 , θ2 ) .

Como X ∼ Gama(θ1 , θ2 ),
θ1 θ1
E[X] = y V [X] =
θ2 θ22
entonces debido a la convergencia en probabilidad de los momentos muestrales
1 2 p θ1
n
p θ1
Xn −
→ y Xi − X n − → 2
θ2 n i=1 θ2
igualmente con el apoyo del corolario 2.1.3.1,

Xn
X n p θ1 θ2 p
−
→ 2 luego
n −
→1
θ2 θ2 1
n (Xi − X n )2
i=1
por lo anterior
Xn p

n −
→ θ2
1
n (Xi − X n )2
i=1
Por otra parte

2
1 p θ2 θ1 p
−
→ luego −
→ θ22
Xn θ1 Xn
también
θ1
n
1
(Xi −X n )2
θ1 p n
i=1 p

n −
→ θ22 por lo tanto 2 −
→1
1
n (Xi − X n )2 θ1
Xn
i=1
en consecuencia
2
Xn p

n −
→ θ1
1
n (Xi − X n )2
i=1
En sı́ntesis,
⎛ ⎞
⎜ 2
Xn Xn ⎟
⎜ , ⎟
⎝1
n
n ⎠
n (Xi − X n )2 1
n (Xi − X n )2
i=1 i=1
es el estimador por el método de los momentos de θ = (θ1 , θ2 ) .

El método de los momentos, posee cierta flexibilidad en la construcción de
estimadores, al admitir relativa libertad en la conformación del sistema de ex-
presiones que son el punto de partida del método. En algunas oportunidades es
posible acudir a otro momento para eludir un obstáculo no advertido. Muestra
de ello es el siguiente ejemplo.
Ejemplo 2.1.10. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
Uniforme en el intervalo (−θ, θ). Determinar por el método de los momentos el
estimador de θ.
p
Partiendo del hecho de que X n − → 0, al no contener información sobre θ se
θ2
explora en otra dirección. Como el segundo momento ordinario es
3
1 2 p θ
n 2
X − →
n i=1 i 3
y por lo tanto
+
, n
,3
- p
X2 −
→θ
n i=1 i

3
n
luego n Xi2 es el estimador por el método de los momentos de θ.
i=1
Ejemplo 2.1.11. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

Normal de valor esperado θ1 y varianza θ2
p
Xn −
→ θ1
1
n
p
(Xi − X n )2 −
→ θ2
n i=1

1 n
luego X n , (Xi − X n )2
es el estimador por el método de los momentos
n i=1
de θ = (θ1 , θ2 ) .

fX (x, θ) = θe−θx I(0,∞) (x), θ>0
Determinar el estimador de la mediana poblacional por medio del método de

los momentos.
p 1
Xn −
→
θ
1 p
−
→θ
Xn
1
luego es el estimador por el método de los momentos de θ. Teniendo en
Xn
ln(2)
cuenta que la mediana poblacional es su estimador por el método de los
θ
p ln(2)
momentos es X n ln(2) porque X n ln(2) −
→ .
θ
2.1.3 El método por analogı́a

La pretensión primaria al proponer un modelo es lograr la mayor fidelidad a
los hechos, es decir que haya concordancia entre los atributos de la realidad
y los elementos del modelo que los representan. Los parámetros de un mode-
lo probabilı́stico desempeñan funciones muy especı́ficas, y es procedente por lo
tanto que sus estimaciones estén en afinidad con ellos en el desempeño de fun-
ciones similares. Sugerido por Pleszczynska, el método por analogı́a, como su
nombre lo indica, elige el estimador luego de indagar el papel que cumplen los
componentes del parámetro dentro del modelo, derivando una estadı́stica que
de manera análoga realice la misma función dentro de la distribución empı́rica.
Un par de ejemplos ilustran la manera como este método particular procede.

fX (x, θ) = θe−θx I(0,∞) (x), θ>0
determinar usando el método por analogı́a un estimador de θ.

1 1
Como E[X] = entonces θ=
θ E[X]
El parámetro es el recı́proco del valor esperado; su estimador debe desempeñar

1
una función análoga. Por lo tanto puede adoptarse como el estimador de θ
X
usando el método por analogı́a.

1
fX (x, θ) = I(0,θ) (x)
θ
el parámetro θ determina el valor máximo de la variable aleatoria que representa
a la población; Xn,n representa al valor máximo en cualquier muestra, por lo
tanto Xn,n es el estimador de θ usando el método por analogı́a.
2.1.4 Estimación Bayesiana

El enfoque Bayesiano en la Estadı́stica es un enfoque muy singular inspirado en
la concepción de la denominada probabilidad subjetiva, probabilidad que el in-
vestigador puede alterar a la luz de información o conocimiento adicional sobre
la naturaleza del fenómeno en estudio. Coherentemente, la estimación Bayesiana
fundamenta su proceder sobre el principio de que información o conocimiento
previo sobre algunos rasgos del parámetro son elementos contribuyentes en su
estimación. Por ello a diferencia de lo tratado hasta el momento, en el sentido
de considerar una muestra aleatoria de una población con función de densidad
fX (x, θ), cuyo parámetro, un valor fijo que pertenece a un conjunto Θ, el en-
foque Bayesiano considera una muestra aleatoria de una población con función
de densidad fX (x, θ) en la cual el parámetro θ es entendido como un valor par-
ticular de una variable aleatoria Θ, variable que tiene una función de densidad
gΘ (θ), cuyo parámetro es totalmente conocido. La función gΘ (θ) recibe la de-
nominación de función de densidad a priori de Θ. Dependiendo de la naturaleza
de θ, la variable Θ es una variable aleatoria continua o discreta, según sea el
caso.
Algunas situaciones en la práctica requieren un modelado especial y el en-
foque Bayesiano es propicio para tal fin. Por ejemplo, si una compañı́a recibe
en su planta de producción materia prima cuyo nivel de calidad, medido en
términos de la fracción disconforme de artı́culos, es variable de entrega a entre-
ga, pero frecuentemente con valores bajos y muy raramente con valores altos,
y si ese nivel de calidad es para un perı́odo de inspección de lotes, en el con-
trol de calidad de la materia prima, el valor del parámetro θ de la función de
densidad de una variable Y que contabiliza el número de artı́culos disconformes
en una caja de 48 unidades, entonces para destacar esa ı́ndole de variabilidad y
de marcada tendencia en la generación de valores bajos, el parámetro θ puede
modelarse como una variable aleatoria con distribución Beta, cuya función de
densidad manifieste un fuerte sesgo a la derecha.
De la familia de densidades Beta, para esta explicación, se opta por una
individual que preserve los rasgos esperados del parámetro,
1
gΘ (θ) = θa−1 (1 − θ)b−1 I(0,1) (θ)
β(a, b)
densidad para la cual a y b son conocidos y para el caso b lo suficientemente
mayor que a para registrar el sesgo pretendido.
Adoptada la distribución a priori de Θ, se selecciona una muestra aleatoria

X1 , X2 , . . . , Xn , de una población ya no con función de densidad fX (x, θ) como
hasta ahora se ha venido concibiendo, sino con función de densidad fX (x|θ)
entendida esta como una función de densidad condicional debido a que depende
de los valores de la variable aleatoria Θ.
Para el caso particular asociado en esta descripción, la muestra se selecciona
de una población con función de densidad
fX (x|θ) = θx (1 − θ)1−x I{0,1} (x)
La función de densidad condicional fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) se le conoce

como la función de densidad a posteriori de Θ, función de densidad condicional
que corresponde a
fX1 ,X2 ,... ,Xn |Θ=θ (x1 , x2 , . . . , xn |θ)gΘ (θ)
fX1 ,X2 ,... ,Xn (x1 , x2 , . . . , xn )
y debido a la independencia existente entre las variables aletorias que conforman
la muestra y la variable aleatoria que representa al parámetro θ, la función de
densidad a posteriori de Θ conviniendo que Θ es una variable continua, puede
expresarse como
n
)
fX (xi |θ) gΘ (θ)
fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) = n
i=1

5∞ )
−∞ f X (x i |θ) gΘ (θ)dθ
i=1
Particularmente al asumir el modelo de Bernoulli, como comportamiento pobla-

cional, y el modelo Beta para el comportamiento del parámetro,
n
) xi
a−1
θ (1 − θ) 1−xi
θ (1 − θ)b−1
i=1
fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) = n n
51 xi n− xi
0 θ
i=1 (1 − θ) i=1 θa−1 (1 − θ)b−1 dθ
n n
xi +a−1 n− xi +b−1
θi=1 (1 − θ) i=1
= n

n
β xi + a , n + b − xi
i=1 i=1
luego la distribución a posteriori de Θ es una distribución Beta. El hecho de que

la familia de densidades a la cual pertenece la función de densidad a priori de
Θ sea la misma de la función de densidad a posteriori de Θ, produce un hecho
atractivo para la computación estadı́stica, pues se puede simular la distribución
a posteriori sin acudir directamente a los resultados del teorema de Bayes.
Pero no siempre se cuenta con esta ventaja. Si se asume la función de
densidad a priori de Θ como Uniforme en el intervalo (0, 1) y la función de
densidad fX (x|θ) = θx (1 − θ)1−x I{0,1} (x), fácilmente puede comprobarse que la
distribución a posteriori de Θ es Beta.

con función de densidad fX (x, θ). Una familia D de densidades se dice que
es conjugada para la función de densidad fX (x, θ), o que es cerrada bajo
muestreo respecto a la función de densidad fX (x, θ), si la función de densidad
a priori de Θ, gΘ (θ) ∈ D y si fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) ∈ D.
De lo anteriormente desarrollado se deriva que la familia de densidades Beta

es conjugada para la función de densidad de un modelo de Bernoulli.

con función de densidad fX (x, θ), gΘ (θ) la función de densidad a priori de Θ,
r(θ) una función del parámetro θ. El estimador Bayesiano para la imagen
de θ bajo la función r, con respecto a la función de densidad a priori gΘ (θ), es
aquel cuya estimación corresponde a:
n
5∞ )
−∞
r(θ) f X (x i |θ) gΘ (θ)dθ
E [r(Θ)|X1 , X2 , . . . , Xn ] = n i=1

5∞ )
−∞
f X (x i |θ) gΘ (θ)dθ
i=1
Ejemplo 2.1.15. Como se afirmó anteriormente la familia de densidades Beta

es conjugada para la función de densidad de un modelo de Bernoulli; entonces
la estimación Bayesiana de θ, corresponde a
n n
51 xi +a−1 n− xi +b−1
0
θ θi=1 (1 − θ) i=1 dθ
E [Θ|X1 , X2 , . . . , Xn ] =

n
n
β xi + a , n + b − xi
i=1 i=1
n n
51 xi +a n− xi +b−1
0 θ i=1 (1 − θ) i=1 dθ
=

n
n
β xi + a , n + b − xi
i=1 i=1

n
xi + a
i=1
=
n+a+b
dicho en otros términos, el estimador Bayesiano para θ con respecto a la función
de densidad a priori de Θ, perteneciente a la familia Bernoulli de densidades, es

n
Xi + a
i=1
Tn =
n+a+b
Puede comprobarse que si se hubiese asumido el modelo uniforme en el intervalo
(0, 1) como la distribución a priori de Θ, el estimador Bayesiano correspondiente
serı́a:

n
Xi + 1
i=1
Tn =
n+2
y la estimación Bayesiana para la varianza de la población θ(1 − θ), es decir
la estimación Bayesiana de la imagen de θ bajo la función r(θ) = θ(1 − θ),
asumiendo el mencionado modelo Uniforme en el intervalo (0, 1) como la dis-
tribución a priori de Θ, se deriva en la forma siguiente
n n
51 xi n− xi
0 θ(1 − θ) θ (1 − θ) i=1 dθ
i=1
E [r(Θ)|X1 , X2 , . . . , Xn ] = n n
51 xi n− xi
0
θ i=1 (1 − θ) i=1 dθ
n n
51 xi +1 n− xi +1
0 θi=1 (1 − θ) i=1 dθ
=

n
n
β xi + 1 , n + 1 − xi
i=1 i=1

n n
xi + 1 n + 1 − xi
i=1 i=1
=
(n + 3)(n + 2)
Ejemplo 2.1.16. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población
con distribución Normal de valor esperado θ y varianza σ 2 asumida como una
constante conocida. La distribución a priori de Θ se establece como Normal de
valor esperado μp y varianza σp2 , por supuesto conocidos. Puede comprobarse
que la familia de densidades Gaussiana es conjugada para la función de densidad
de un modelo Gaussiano e igualmente que la distribución a posteriori de Θ es
normal de valor esperado
nσp2 xn + μp σ 2
nσp2 + σ 2
y varianza
σp2 σ 2
nσp2 + σ 2
Nota. Como μp y σp2 son valores fijos y conocidos, en la medida en que el
tamaño de la muestra se incremente este estimador tiende al estimador máximo-
verosı́mil para θ.
Para terminar, los estimadores Bayesianos definidos en esta sección, real-
mente son estimadores Bayesianos cuyas estimaciones minimizan una función
de pérdida particular llamada error cuadrático. Quiere decir esto que si se adop-
ta otra función de pérdida, el estimador Bayesiano puede ser de otra naturaleza.
2.2. CRITERIOS PARA EXAMINAR ESTIMADORES 69
2.2 Criterios para examinar estimadores

Otorgar facultades a una estadı́stica para que se desempeñe cabalmente como
estimador es el resultado del cumplimiento por parte de ella de cada uno de
los requisitos de un conjunto de requisitos deseables para un estimador idóneo;
consiste en colocar en balanza los requisitos que la estadı́stica cumple, sus ca-
pacidades, y aquellos rasgos que menoscaban en algún grado su misión, es decir,
la evaluación del costo beneficio de adoptar un estimador con algunas deficien-
cias frente a sus virtudes.
Se trata de un procedimiento análogo a un procedimiento de certificación
de calidad que asegura que un producto, un proceso o un servicio, cumple con
los requisitos especificados, lo cual genera un factor imprescindible en la ci-
mentación de la confianza en las relaciones cliente proveedor. Facultar una
estadı́stica es en sı́ acreditar la calidad de un proceso, un proceso particular de
inferencia, para que el usuario pueda aplicarlo con la confianza derivada de la
certificación, a semejanza del uso que un cliente le da a un producto o servicio
certificado.
Ası́ como en una relación comercial, el proveedor necesita disponer de evi-
dencias que confirmen la aptitud del producto o la diligencia del servicio, para
que su cliente pueda confiar en su destreza para satisfacer sus expectativas y
necesidades, análogamente de un estimador es menester contar con una relación
de sus solvencias para que su uso, sujeto al modelo adoptado, satisfaga la pre-
cisión y exactitud previstas en el proceso de estimación y tenga en cuenta las
limitaciones y particularidades del entorno de su aplicación.
Contrario a lo que frencuentemente se presenta como propiedades de los es-
timadores, este texto las destaca como requisitos para facultar estadı́sticas en su
desempeño como estimadores. Los requisitos indagan sobre el carácter del cen-
tro de gravedad de la distribución muestral de la estadı́stica, sobre la naturaleza
de su concentración, sobre atributos especiales derivados de su construcción,
sobre el efecto que pueda tener el tamaño de la muestra en su esencia y sobre
otras condiciones de mayor abstracción.
Es usual en la certificación de estimadores adjetivar al estimador con el
requisito que cumple. Por ejemplo se designará como estimador insesgado al
estimador que cumple el requisito del insesgamiento, estimador consistente al
estimador que satisface el requerimiento de la consistencia, etc. Igualmente,
la estimación correspondiente, es decir el valor particular del estimador, se le
adjetiva de igual forma: estimación insesgada, estimación consistente.
Para dar paso a la exposición de estos requisitos o criterios para el examen
de una estadı́stica, se describe en primer lugar lo relativo a la concentración de
un estimador.
2.2.1 Concentración, un requisito de precisión

con función de densidad fX (x, θ), la función r(θ) una función del parámetro
(1) (2)
θ, y Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ) dos estimadores
(1)
para la imagen de θ bajo la función r. Se dice que el estimador Tn es más
(2)
concentrado que el estimador Tn si y sólo si

Pθ r(θ) − λ < Tn(1) < r(θ) + λ ≥ Pθ r(θ) − λ < Tn(2) < r(θ) + λ
para cada λ > 0 y cada θ ∈ Θ.

En la definición anterior se utilizó el sı́mbolo Pθ en cambio del sı́mbolo usual
P para acentuar el hecho de que el cálculo de la probabilidad allı́ indicado se
basa en un modelo asumido, modelo que lleva consigo al parámetro θ como
su componente connatural; quiere decir entonces que el citado cálculo alude
a cualquier valor del parámetro, en su respectivo espacio, por supuesto. En
este mismo sentido, al utilizar Eθ y Vθ se hace referencia al valor esperado y a
la varianza respectivamente de una variable aleatoria, bajo las consideraciones
hechas de la dependencia del modelo asumido y de su parámetro inherente.
con función de densidad fX (x, θ) y r(θ) una función del parámetro. El estimador
Tn∗ = t∗ (X1 , X2 , . . . , Xn ) se denomina el estimador más concentrado para
la imagen de θ bajo r, si él es más concentrado que cualquier otro estimador
para la imagen de θ bajo la función r.
(1)
Definición 2.2.3. Dentro del marco de la definición 2.2.1 el estimador Tn se
(2)
denomina estimador Pitman más concentrado que el estimador Tn para
la imagen de θ bajo la función r si y sólo si
1
Pθ |Tn(1) − r(θ)| < |Tn(2) − r(θ)| ≥
2
Definición 2.2.4. El estimador Tn∗ = t∗ (X1 , X2 , . . . , Xn ) se denomina el es-
timador Pitman más concentrado para la imagen de θ bajo la función r si
él es Pitman más concentrado que cualquier otro estimador para imagen de θ
bajo r.
con función de densidad fX (x, θ), la función r(θ) una función del parámetro θ
y Tn = t(X1 , X2 , . . . , Xn ) un estimador de la imagen de θ bajo la función r.
Una medida de concentración del estimador Tn es llamada error cuadrático
medio (ECM) definido como

ECMTn (θ) = Eθ (Tn − r(θ))2
El centro de gravedad de la función de densidad de una variable aleatoria es

un punto de referencia destacado. Para una estadı́stica, lo es en mayor medida
al tornarse en ineludible el conocimiento, con el máximo detalle posible, de la
ı́ndole de su valor esperado. En particular el saber si el centro de gravedad
de la función de densidad de la estadı́stica postulada coincide con el valor del
parámetro o con la imagen del parámetro bajo una función determinada, según
sea el caso, es una cualidad deseable dentro de los pormenores de la exactitud

que se le exige, y por lo tanto es un ingrediente necesario dentro del examen
de idoneidad como estimador. Por ello cobra importancia el requisito de inses-
gamiento como uno de los elementos para facultar estadı́sticas, requisito que a
continuación se presenta.
Definición 2.2.6. Dentro de las condiciones de la definición 2.2.5 un esti-

mador Tn se dice que es un estimador insesgado para la imagen de θ bajo la
función r si y sólo si
Eθ [Tn ] = r(θ)
para todo θ ∈ Θ
Definición 2.2.7. Bajo las consideraciones de la definición 2.2.5, la diferencia
Bθ [Tn ] = Eθ [Tn ] − r(θ)
se denomina sesgo del estimador Tn para la imagen de θ bajo r.
El error cuadrático medio de un estimador Tn puede expresarse como la

suma de dos componentes: la varianza del estimador Tn y el cuadrado del sesgo
del mismo. En efecto

ECMTn (θ) = Eθ (Tn − r(θ))2
6 7
= Eθ [(Tn − Eθ [Tn ]) + (Eθ [Tn ] − r(θ))]2
= Vθ [Tn ] + Bθ2 [Tn ]
porque (Eθ [Tn ] − r(θ))Eθ [Tn − Eθ [Tn ]] = 0.

Por supuesto si Tn es un estimador insesgado para la imagen de θ bajo la función
r, entonces Bθ [Tn ] = 0 y por lo tanto
ECMTn (θ) = Vθ [Tn ]
El requisito de insesgamiento se puede cumplir en muchos casos modificando

ligeramente la estadı́stica en consideración. En otras oportunidades el sesgo
pierde interés y no es obstáculo en el buen desempeño del estimador, porque en
la medida en que el tamaño de la muestra se incrementa el sesgo se disipa.
Definición 2.2.8. Bajo las consideraciones de la definción 2.2.5 al estimador

Tn = t(X1 , X2 , . . . , Xn ) basado en una muestra aleatoria de un población con
función de densidad fX (x, θ) se le denomina estimador asintóticamente
insesgado para la imagen de θ bajo la función r si
lim {Eθ [Tn ] − r(θ)} = 0

n→∞
para todo θ ∈ Θ.

1
fX (x, θ) = I(0,θ) (x), θ>0
θ
El método por analogı́a sugiere el estimador Tn = Xn,n para θ; determinar el
ECM de Xn,n .
ny n−1
fXn,n (y) = I(0,θ) (y)
θn
θ
n n n
Eθ [Xn,n ] = y dy = θ
0 θn n+1
n θ
Bθ [Xn,n ] = θ−θ =−
n+1 n+1
Claramente Xn,n es un estimador asintóticamente insesgado para θ.
θ
n n 2
2
Eθ [Xn,n ]= n y n+1 dy = θ
θ 0 n+2
n 2 n2 n
Vθ [Xn,n ] = θ − θ2 = θ2
n+2 (n + 1)2 (n + 1)2 (n + 2)
luego
2θ2
ECMXn,n (θ) =
(n + 1)(n + 2)
Ejemplo 2.2.2. El MLE de σ 2 basado en una muestra aleatoria X1 , X2 , . . . , Xn ,
de una población Gaussiana de valor esperado μ y varianza σ 2 es
1 2
n
Tn = Xi − X n
n i=1
estadı́stica con un sesgo que puede pasarse por alto al contar con una muestra
grande, porque Eθ [Tn ] = n−1 2
n σ . Sin embargo es factible corregir esta ligera
imperfección construyendo una estadı́stica que cumpla el requisito de inses-
gamiento. Precisamente la estadı́stica
1 2
n
Sn2 = Xi − X n
n − 1 i=1
cuenta con una función de densidad cuyo centro de gravedad es justamente

σ 2 , como lo asegura de manera general el teorema 1.4.2. Independientemente
del modelo asumido, el insesgamiento de Sn2 como estimador de la varianza
poblacional es la razón por la cual Sn2 se adopta como varianza de la muestra.
(1) (2)
Ejemplo 2.2.3. Si Tn y Tn son dos estimadores insesgados para θ cuyas
(i)
varianzas son respectivamente σ12 y σ22 y si además Tn ∼ N (θ, σi2 ) entonces
(1) (2)
Tn es más concentrado que Tn para θ si y sólo si σ12 < σ22 . En efecto, como

−λ
(i)
Tn − θ
(i) λ
Pθ Tn − θ < λ = Pθ < <
σi σi σi

λ λ λ
=Φ −Φ − = 2Φ
σi σi σi
5v 1 2
siendo Φ(v) = −∞ √12π e− 2 z dz, entonces

Pθ Tn(1) − θ < λ ≥ Pθ Tn(2) − θ < λ

λ λ
2Φ − 1 ≥ 2Φ −1
σ1 σ2

λ λ
Φ ≥Φ
σ1 σ2
λ λ
desigualdad que se cumple cuando ≥ , en sı́ntesis cuando σ1 < σ2 .
σ1 σ2
2.2.2 Consistencia, un requisito ligado al tamaño de la

muestra
Definición 2.2.9. Sea Tn = t(X1 , X2 , . . . , Xn ) un estimador para la imagen
de θ bajo r, r una función de θ, construido con base en una muestra aleatoria
X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ). Tn se de-
nomina estimador consistente en error cuadrático medio para la imagen
de θ bajo la función r, si la sucesión de estadı́sticas {Tn } converge en media
cuadrática a r(θ), es decir si

lim Eθ (Tn − r(θ))2 = 0
n→∞
Definición 2.2.10. Bajo las consideraciones de la definición 2.2.9, Tn es un
estimador consistente simple o consistente débil para la imagen de θ bajo
r si, la sucesión de estadı́sticas {Tn } converge en probabilidad a r(θ), es decir
si
lim Pθ [r(θ) − < Tn < r(θ) + ] = 1

n→∞
Nota. Un estimador que haya sido construido por el método de los momentos,
naturalmente es un estimador consistente simple.
Como la consistencia de un estimador es una propiedad inherente a la con-

vergencia, un estimador consistente en error cuadrático medio es un estimador
consistente simple. Lo contrario no siempre es cierto.
Definición 2.2.11. Sea Tn∗ = t∗ (X1 , X2 , . . . , Xn ) una estadı́stica basada en
una muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad
fX (x, θ) estadı́stica elegida como estimador para la imagen de θ bajo una función
r. Tn∗ se denomina estimador BAN (best asymptotically Normal) si y
sólo si
1. La sucesión de variables aleatorias
√
{ n[Tn∗ − r(θ)]}
2
de valor esperado cero y varianza σ ∗ (θ).
2. El estimador Tn∗ es consistente simple para la imagen de θ bajo la función
r.
3. Siendo Tn cualquier otro estimador consistente simple para la imagen de
θ bajo la función r para el cual la sucesión
√
{ n[Tn − r(θ)]}
de valor esperado cero y varianza σ 2 (θ), se tiene que
2
σ ∗ (θ) ≤ σ 2 (θ)
Definición 2.2.12. Un estimador Tn para la imagen de θ bajo la función r con

las condiciones de la definición 2.2.11 se denomina estimador CAN (con-
sistent asymptotically Normal) o Tn es CANE, si
√ d
n(Tn − r(θ)) −→ N (0, σ 2 (θ))
(1) (2)
Definición 2.2.13. Si Tn y Tn son dos estimadores CAN para la imágen de
θ bajo una función r, basados en una muestra aleatoria X1 , X2 , . . . , Xn de una
población con función de densidad fX (x, θ), cuyas varianzas son respectivamente
(1) (2)
σ12 (θ) y σ22 (θ), se dice que Tn es asintóticamente más concentrado que Tn
si σ12 (θ) ≤ σ22 (θ), para todo θ ∈ Θ.
Teorema 2.2.1. Siendo X1 , X2 , . . . , Xn una muestra de una población con
función de densidad fX (x, θ), una función continua y positiva en el percentil xp
con p un valor fijado de antemano, entonces la estadı́stica de orden X[np]+1,n
es un estimador CAN para el percentil xp con σ 2 (θ) = nfp(1−p)
2 o dicho de otra
X (xp ,θ)
manera
8
n
d
fX (xp , θ) X[np]+1,n − xp −→ Z ∼ N (0, 1)
p(1 − p)
2.2.3 Suficiencia, un requisito de retención de información
El concepto de suficiencia que no es tan intuitivo como el concepto de consisten-

cia, insesgamiento o concentración, fue definido por Fisher en 1922. En una de
sus afirmaciones, expresaba que una estadı́stica suficiente es “equivalente, para
todos los propósitos de estimación, a los datos originales de los cuales fue deriva-
da”, afirmación que permite señalar entonces la importancia de una estadı́stica
suficiente y colegir que un buen estimador debe ser función de una estadı́stica
con esta propiedad.
La idea de suficiencia indaga sobre la “pérdida de información”, que para
efectos de estimación del parámetro θ, supone la reducción de los valores ob-
servados x1 , x2 , . . . , xn en un solo dato: tn = t(x1 , x2 , . . . , xn ), que a la luz
de la afirmación de Fisher, citada en el párrafo anterior, significa que una es-
tadı́stica suficiente conserva de alguna manera la información contenida en la
muestra aleatoria, es decir en las variables aleatorias que representan a los datos
originales.
El concepto de suficiencia involucra a las observaciones muestrales, observa-
ciones que pueden considerarse como un elemento del espacio de las observa-
ciones X subconjunto de Rn definido como
X = {(x1 , x2 , . . . , xn )|x1 , x2 , . . . , xn son valores observados de X1 , X2 , . . . , Xn }
El conocimiento de un valor particular tn de una estadı́stica Tn no permite

la identificación de cada uno de los valores muestrales x1 , x2 , . . . , xn , que lo
produjeron, porque varios elementos del espacio de las observaciones X pueden
tener como imagen el mismo valor tn , elementos éstos que conforman un sub-
conjunto denominado contorno de la estadı́stica Tn . Cualquier contorno de
una estadı́stica suficiente, posee una propiedad especial: su comportamiento
probabilı́stico no depende del parámetro θ. Esta idea se abstrae y se formaliza
en la siguiente definición.
Definición 2.2.14. El estimador Tn = t(X1 , X2 , . . . , Xn ) para el parámetro

θ se dice que es una estadı́stica suficiente para θ, basada en una muestra
aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ),
si la distribución condicional de las variables aleatorias X1 , X2 , . . . , Xn dado
Tn = tn , no depende de θ para todo valor tn .
Ejemplo 2.2.4. Sea X1 , X2 una muestra aleatoria de tamaño dos de una po-
blación con distribución de Bernoulli de parámetro θ. T2 = X1 + X2 es una
estadı́stica suficiente para θ.
Pθ [X1 = 0, X2 = 0|T2 = 0] = 1, Pθ [X1 = 1, X2 = 1|T2 = 2] = 1

Pθ [T2 = 1] = Pθ [X1 = 1, X2 = 0] + Pθ [X1 = 0, X2 = 1]

= θ(1 − θ) + θ(1 − θ)
= 2θ(1 − θ)
Pθ [X1 = 1, X2 = 0]
Pθ [X1 = 1, X2 = 0|T2 = 1] =
Pθ [T2 = 1]
θ(1 − θ)
=
2θ(1 − θ)
1
=
2
Pθ [X1 = 0, X2 = 1]
Pθ [X1 = 0, X2 = 1|T2 = 1] =
Pθ [T2 = 1]
θ(1 − θ)
=
2θ(1 − θ)
1
=
2
Se concluye de esta manera que T2 = X1 + X2 es una estadı́stica suficiente para

θ pues la distribución condicional de las variables X1 , X2 dada la estadı́stica T2
no depende de θ.
Por su parte la estadı́stica T2 = X1 X2 , no es una estadı́stica suficiente para θ.
La estadı́stica toma dos valores: 0 y 1.
Pθ [T2 = 0] = Pθ [X1 = 0, X2 = 0] + Pθ [X1 = 1, X2 = 0] + Pθ [X1 = 0, X2 = 1]
= (1 − θ)2 + 2(1 − θ)θ = 1 − θ2
Pθ [T2 = 1] = θ2
Según la definición anterior es preciso examinar la distribución codicional de
X1 , X2 dado T2 = t2 , es decir si las siguientes probabilidades dependen o no del
parámetro θ, para poder concluir sobre la suficiencia de la estadı́stica.
(1 − θ)2 1−θ
Pθ [X1 = 0, X2 = 0|T2 = 0] = =
1 − θ2 1+θ
θ(1 − θ) θ
Pθ [X1 = 0, X2 = 1|T2 = 0] = =
1−θ 2 1+θ
θ(1 − θ) θ
Pθ [X1 = 1, X2 = 0|T2 = 0] = =
1 − θ2 1+θ
Pθ [X1 = 1, X2 = 1|T2 = 1] = 1
Con estos resultados puede deducirse que la estadı́stica T2 = X1 X2 no es una
estadı́stica sufiente para θ.
Determinar a partir de la definición 2.2.14 si una estadı́stica especı́fica es una

estadı́stica suficiente no es una tarea fácil en la mayorı́a de las situaciones, porque
la sola construcción de la distribución condicional puede resultar dispendiosa.
Menos complicado podrı́a resultar el uso de la siguiente definición, apropiada
más para señalar la no suficiencia que la suficiencia de una estadı́stica particular.
Por fortuna, el criterio de Fisher-Neyman es un instrumento seguro para la
búsqueda o confirmación de estadı́sticas suficientes.

con función de densidad fX (x, θ). Una estadı́stica Tn = t(X1 , X2 , . . . , Xn ) es
una estadı́stica suficiente para el parámetro θ si y sólo si la distribución
condicional de Tn = t (X1 , X2 , . . . , Xn ) dado Tn = tn , no depende de θ, Tn es
cualquier estadı́stica.
Teorema 2.2.2 (Criterio de factorización de Fisher-Neyman). (Versión

para estadı́sticas suficientes unidimensionales). Sea X1 , X2 , . . . , Xn una mues-
tra aleatoria de una población con función de densidad fX (x, θ). Siendo Tn
una estadı́stica, Tn = t(X1 , X2 , . . . , Xn ), ella es suficiente para θ si y sólo si
la función de verosimilitud de la muestra puede expresarse como el producto de
dos factores:
L(θ; x1 , x2 , . . . , xn ) = g(t(x1 , x2 , . . . , xn ); θ)h(x1 , x2 , . . . , xn )
siendo h una función no negativa que depende exclusivamente de x1 , x2 , . . . , xn

y la función g, no negativa, que depende de θ y de x1 , x2 , . . . , xn a través de
t(x1 , x2 , . . . , xn ).
El ejemplo 2.2.4 pretende ser inductor del concepto de la suficiencia de una

estadı́stica, ejemplo despojado de toda complicación de cálculo, para centrar la
reflexión sobre el concepto a la luz de la definición 2.2.14. Por el contrario, el
siguiente ejemplo generalización del citado ejemplo, ilustra una forma mecánica
de determinar estadı́sticas suficientes con el recurso del criterio de factorización
de Fisher-Neyman.

con distribución de Bernoulli de parámetro θ.

n
Tn = Xi es una estadı́stica suficiente para θ. En efecto,
i=1
n n n
xi n− xi
L(θ; x1 , x2 , . . . , xn ) = θ i=1 (1 − θ) i=1 I{0,1} (xi )
i=1
n
xi n
θ i=1
= (1 − θ) n
I{0,1} (xi )
1−θ i=i
⎡ ⎤
n xi n
θ
=⎣ (1 − θ) ⎦
i=1 n
I{0,1} (xi )
1−θ i=1
9 :; <9 :; <
n h(x1 ,x2 ,... ,xn )
g xi ,θ
i=1

n
luego el criterio de Fisher-Neyman permite concluir que Xi es una estadı́stica
i=1
suficiente para θ.

(1) (2) (m)
con función de densidad fX (x, θ). Las estadı́sticas Tn , Tn , . . . , Tn , siendo
(i)
Tn = ti (X1 , X2 , . . . , Xn ), i = 1, 2, . . . , m, se denominan estadı́sticas con-
juntamente suficientes para θ si y sólo si la distribución de X1 , X2 , . . . , Xn
(1) (2) (m)
dado Tn , Tn , . . . , Tn no depende de θ.
(1) (2)
Teorema 2.2.3. Si Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), . . . ,
(m)
Tn = tm (X1 , X2 , . . . , Xn ) es un conjunto de estadı́sticas conjuntamente su-
(1) (2) (m)
ficientes, entonces cualquier transformación uno a uno de Tn , Tn , . . . , Tn
es también un conjunto de estadı́sticas suficientes.
Teorema 2.2.4 (Criterio de Factorización de Fisher-Neyman). (Versión

para estadı́sticas conjuntamente suficientes). Sea X1 , X2 , . . . , Xn una muestra
aleatoria de una población con función de densidad fX (x, θ). El conjunto de es-
(1) (2)
tadı́sticas Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ),
(m)
. . . , Tn = tm (X1 , X2 , . . . , Xn ) constituye una colección de estadı́sticas conjun-
tamente suficientes para θ si y sólo si la función de verosimilitud de la muestra
L(θ; x1 , x2 , . . . , xn ) = L puede expresarse como
L = g(t1 (x1 , x2 , . . . , xn ), . . . , tm (x1 , x2 , . . . , xn ); θ)h(x1 , x2 , . . . , xn )
la función h es una función no negativa que depende de x1 , x2 , . . . , xn exclu-

sivamente y g una función no negativa que depende de θ y de x1 , x2 , . . . , xn a
través de t1 , t2 , . . . , tm .

Normal de valor esperado μ y varianza σ 2 , θ = (μ, σ 2 ) .

n
2
1 1 xi − μ
L(θ; x1 , x2 , . . . , xn ) = √ exp −
i=1
2πσ 2 σ
n
1 1 n
−n
= n σ exp − 2 xi − 2μ
2
xi + nμ2
(2π) 2 2σ i=1 i=1
9 :; <
n n
g x2i , xi ,θ
i=1 i=1

n
n
h(x1 , x2 , . . . , xn ) = 1. Luego Xi y Xi2 son conjuntamente suficientes para
i=1 i=1
θ = (μ, σ 2 ) . También son conjuntamente suficientes para θ
n
1 1
n
Xi , (Xi − X n )2
n i=1 n − 1 i=1
Se decı́a en la parte introductoria del método de máxima verosimilitud, que

los estimadores construidos bajo este procedimiento poseen propiedades espe-
ciales que los hacen atractivos. Sin destacarlas en sección alguna del texto, esas
propiedades van surgiendo con el desarrollo del capı́tulo. En primer lugar un
MLE puede ser una estadı́stica suficiente, teniendo en cuenta los enunciados de
los teoremas 2.2.5 y 2.2.6.
Teorema 2.2.5. Si Tn es una estadı́stica suficiente para θ basada en una mues-
tra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ)
y si Tn∗ es un MLE para θ, y es único, entonces Tn∗ es función de Tn .
Definición 2.2.17. Una estadı́stica suficiente Tn se denomina suficiente
minimal si Tn es función de cualquier otra estadı́stica suficiente.
Definición 2.2.18. Una colección de estadı́sticas conjuntamente suficientes se
denomina minimal si y sólo si, ellas son función de cualquier otro conjunto de
estadı́sticas suficientes.
Teorema 2.2.6. Sea Tn un MLE para θ, estimador basado en una muestra
aleatoria X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ).
Si Tn es el único MLE para θ, entonces Tn es función de una colección minimal
de estadı́sticas conjuntamente suficientes. Si Tn no es el único MLE para θ,
entonces existe un estimador máximo-verosı́mil Tn que es una función de una
colección minimal de estadı́sticas conjuntamente suficientes.
Para propósitos diversos suele constituirse familias de densidades, que agru-
pan modelos probabilı́sticos que poseen alguna o algunas caracterı́sticas co-
munes. La familia Pearsoniana por ejemplo congrega densidades que satisfacen
la ecuación diferencial
x+α
y = y
β + γx + δx2
siendo y = fX (x) y α, β, γ, δ constantes. En otras oportunidades se construye

una familia de densidades que se puede entender como un “macromodelo”puesto
que incluye modelos probabilı́sticos tradicionales como sus casos particulares.
Tal es el caso de la denominada distribución Gama generalizada, propuesta por
Stacy, que incluye modelos particulares como la distribución Gama, la distribu-
ción Exponencial, la distribución Weibull e inclusive la distribución Lognormal
entendida como el caso en el cual k → ∞. La función de densidad que identifica
a esta distribución, a esta familia o a este macromodelo tiene como expresión a

β x βk−1 x β
exp − I(0,∞) (x)
αΓ(k) α α
con x cualquier valor de la variable aleatoria, α, β y k constantes positivas.
Esta tendencia a la agrupación de modelos de probabilidad en familias tiene
en cada caso propósitos especı́ficos, como se habı́a mencionado. Concretamente
en el estudio de la suficiencia y la completez tiene un singular interés una fa-
milia de densidades conocida corrientemente como la familia exponencial de
densidades, que la definición 2.2.19 detalla.
Definición 2.2.19. Sea (X1 , X2 , . . . , Xp ) un vector aleatorio. Se afirma que
la función de densidad de (X1 , X2 , . . . , Xp ) pertenece a la clase o familia
p-dimensional de Koopman-Darmois k-paramétrica, que tiene la for-
ma Koopman-Darmois o que pertenece a la clase o familia exponencial
p-dimensional de densidades k-paramétrica si la función de densidad
fX1 ,X2 ,... ,Xp (x1 , x2 , . . . , xp ) se puede expresar como
⎡ ⎤
k
exp ⎣ dj (x1 , x2 , . . . , xp )cj (θ) + a(θ) + b(x1 , x2 , . . . , xp )⎦
j=1
para todo θ ∈ Θ ⊆ Rk , para b, d1 , d2 , . . . , dk , funciones de x1 , x2 , . . . , xp y

a, c1 , c2 , . . . , ck , funciones de θ escogidas convenientemente.
Definición 2.2.20. Como caso especial en la definición 2.2.19, una función
de densidad fX (x, θ), θ ∈ Θ ⊆ R, pertenece a la familia exponencial unidi-
mensional de densidades si la función de densidad fX (x, θ) puede expresarse
como
fX (x, θ) = a(θ)b(x)exp[c(θ)d(x)]
para todo x, θ ∈ Θ con a, b, c, d funciones escogidas convenientemente.
Definición 2.2.21. También particularizando la definición 2.2.19, la función
de densidad fX (x, θ) pertenece a la familia exponencial de densidades k-
paramétrica si fX (x, θ) puede expresarse como
k

fX (x, θ) = a (θ1 , θ2 , . . . , θk ) b(x)exp cj (θ1 , θ2 , . . . , θk ) dj (x)
i=1
para todo x, y todo θ ∈ Θ ⊆ Rk , con a, b, cj , dj funciones elegidas conveniente-

mente.
En general sin hacer mención al entero k que se refiere al número de com-

ponentes del vector θ, ni al número p de variables aleatorias que constituyen
el vector aleatorio, se habla simplemente de clase o familia Koopman-Darmois,
clase o familia exponencial de densidades. La determinación de k y p será ex-
plı́cita o se podrá deducir del contexto.
Ejemplo 2.2.7. La función de densidad de una variable aleatoria con distribu-
ción Exponencial negativa pertenece a la familia exponencial de densidades.
Efectivamente,
fX (x, θ) = θe−θx I(0,∞) (x) = [θ]I(0,∞) (x)exp{[−θ][x]}
donde a(θ) = θ, b(x) = I(0,∞) (x), c(θ) = −θ, d(x) = x

Ejemplo 2.2.8. La función de densidad de una variable aleatoria con distribu-
ción de Poisson pertenece a la familia exponencial de densidades debido a que
θx e−θ
fX (x, θ) = I (x)
x! {0,1,2,... }

−θ I{0,1,2... } (x)
= e exp{[ln θ][x]}
x!
donde a(θ) = e−θ , b(x) = I{0,1,2,... } (x)/x!, c(θ) = ln θ, d(x) = x

Nota. Si fX (x, θ) pertenece a la familia exponencial unidimensional de densi-
dades y si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con dicha
función de densidad, la estadı́stica

n
d(Xi )
i=1
es una estadı́stica suficiente.

Esta afirmación puede sustentarse utilizando el criterio de factorización.
Como fX (x, θ) pertenece a la familia exponencial unidimensional de densidades,
fX (x, θ) = a(θ)b(x)exp{c(θ)d(x)}

n
n
n
L(x1 , x2 , . . . , xn ; θ) = a (θ) b(xi )exp c(θ) d(xi )
i=1 i=1
! "

n
n

n )
n
g d(xi ), θ = a (θ)exp c(θ) d(xi ) y h(x1 , x2 , . . . , xn ) = b(xi ) La
i=1 i=1 i=1

k
estadı́stica d(Xi ) ha sido denominada por algunos autores como la estadı́stica
i=1
natural de la familia exponencial unidimensional e igualmente por las razones
de la nota anterior, para efectos de suficiencia, se le conoce como la estadı́stica
natural suficiente de la familia exponencial unidimensional. También al vec-
tor θ∗ = (c1 (θ), c2 (θ), . . . , ck (θ)) se le denomina el parámetro natural de la

n
n
n
distribución y en general a la estadı́stica d1 (Xi ), d2 (Xi ), . . . , dk (Xi )
i=1 i=1 i=1
se le conoce como estadı́stica natural k-dimensional para θ.
Ejemplo 2.2.9. La función de densidad de una variable aleatoria X

1
fX (x, θ) = xθ1 −1 (1 − x)θ2 −1 I(0,1) (x)
β(θ1 , θ2 )
pertenece a la familia exponencial 2-paramétrica de densidades.

1

fX (x, θ) = I(0,1) (x) exp {[θ1 − 1][ln(x)] + [θ2 − 1][ln(1 − x)]}
β(θ1 , θ2 )
donde a(θ) = 1/β(θ1 , θ2 ), b(x) = I(0,1) (x), c1 (θ1 , θ2 ) = θ1 −1, c2 (θ1 , θ2 ) = θ2 −1,
d1 (x) = ln x, d2 (x) = ln(1 − x).
Nota. Igualmente, con el apoyo del criterio de factorización se deduce que si

fX (x, θ) pertenece a la familia exponencial k-paramétrica de densidades, las es-
tadı́sticas

n
n
n
d1 (Xi ), d2 (Xi ), . . . , dk (Xi )
i=1 i=1 i=1
son conjuntamente suficientes para θ. Además se puede demostrar que consti-

tuyen una colección minimal.
Antes de concluir lo concerniente a la suficiencia, es menester precisar el

término equivalencia y su efecto en la suficiencia, debido a la existencia de
estadı́sticas que para efectos de inferencia proporcionan la misma información.
Igualmente si la suficiencia se asocia con la idea de retención de información, lo
contrario el no poseer información relativa al parámetro es un atributo que de
alguna manera debe señalarse.
Definición 2.2.22. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población

con función de densidad fX (x, θ). Siendo Tn∗ y Tn dos estadı́sticas tales que
Tn∗ = t∗ (X1 , X2 , . . . , Xn ) y Tn = t(X1 , X2 , . . . , Xn ), se dice que las dos es-
tadı́sticas son equivalentes si existe una función g uno a uno de tal manera
que Tn∗ = g(Tn ).

con función de densidad fX (x, θ). Siendo las estadı́sticas Tn = t(X1 , X2 , . . . , Xn )
y Tn∗ = t∗ (X1 , X2 , . . . , Xn ) estadı́sticas equivalentes, si Tn es una estadı́stica su-
ficiente para θ, también lo es Tn∗ .
Esta propiedad que resalta el anterior teorema, se intuye fácilmente porque

dado cualquier contorno de la estadı́stica Tn∗ él corresponde al mismo contorno de
la estadı́stica Tn . Es esta propiedad la que permite construir buenos estimadores
a partir de una estadı́stica suficiente.
Finalmente, contrario a lo expresado en esta sección dedicada a la suficiencia,

en el sentido de que una estadı́stica suficiente contiene toda la información
respecto del parámetro, existen estadı́sticas que no contienen dicha información.
Entonces la idea contraria a la suficiencia puede formalizarse en la siguiente
definición y una utilización particular de ella la precisa el teorema de Basu.

con función de densidad fX (x, θ). La estadı́stica Tn = t(X1 , X2 , . . . , Xn ) se de-
nomina estadı́stica auxiliar para el parámetro θ si fTn (t) es una función que
no depende de θ. Si especı́ficamente E[Tn ] es un valor que no depende de θ, Tn
se denomina estadı́stica auxiliar de primer orden
Teorema 2.2.8 (Teorema de Basu). Sea X1 , X2 , . . . , Xn una muestra aleato-

ria de una población con función de densidad fX (x, θ). Siendo la estadı́stica
Tn = t(X1 , X2 , . . . , Xn ) una estadı́stica auxiliar para el parámetro θ y la es-
tadı́stica Tn∗ = t∗ (X1 , X2 , . . . , Xn ) una estadı́stica suficiente para θ, entonces
Tn y Tn∗ son variables aleatorias estadı́sticamente independientes.
Ejemplo 2.2.10. Cuando se derivaba el estimador por el método de los mo-

mentos para el parámetro θ bajo el modelo Uniforme en el intervalo (−θ, θ),
p

n −
ejemplo 2.1.10, página 63, el método encontró un obstáculo: X → 0. Allı́
se afirmó que X n no contenı́a información sobre θ. Como Eθ X n = 0, X n
entonces es una estadı́stica auxiliar de primer orden.

(1) X1,n (2)
Uniforme en el intervalo (0, θ), las estadı́sticas Tn = y Tn = Xn,n son
Xn,n
variables aleatorias independientes.
Como Xn,n es una estadı́stica suficiente para θ, de acuerdo al teorema de Basu
(1)
sólo resta mostrar que Tn es una estadı́stica auxiliar. En efecto,

X1,n
FT (1) (t) = P ≤t , 0<t<1
n Xn,n
= P [X1,n ≤ tXn,n ]
θ ty
n(n − 1) y x n−1
= − dx dy
θ2 θ θ

0 0

= 1 − (1 − t)n−1 I(0,1) (t) + I[1,∞) (t)
por lo tanto la función de densidad correspondiente no depende de θ. Entonces

(1) (2)
Tn y Tn son estadı́sticamente independientes.
2.2.4 Varianza mı́nima, un requisito de máxima precisión

La variabilidad es en esencia inherente a la Estadı́stica, su razón y su objeto.
El poder conocer su comportamiento, el poder cuantificarla y en muchos casos
el poderla mantener bajo control son propósitos deseables y además viables.
Los estimadores surgidos de esa condición de variabilidad, heredan esa misma

naturaleza, sólo que para éstos la precisión en su papel de estimar parámetros
es reconocida a través de su variabilidad. Por ello la variabilidad medida por
medio de la varianza se convierte en un criterio de examen de estadı́sticas, pues
evidentemente es más preciso aquel estimador que tenga menor varianza, pues
tiene la capacidad de producir estimaciones más concentradas. Esta sección se
enfoca hacia este requisito.
Definición 2.2.24. Siendo Tn y Tn dos estimadores insesgados para θ, basa-

dos en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función
de densidad fX (x, θ), se dice que Tn es uniformemente mejor que Tn si
Vθ [Tn ] ≤ Vθ [Tn ], para todo θ ∈ Θ ⊂ R.
Definición 2.2.25. Un estimador Tn∗ = t∗ (X1 , X2 , . . . , Xn ) basado en una

muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad
fX (x, θ), r(θ) una función de θ, es insesgado de varianza uniformemente
mı́nima UMVUE para la imagen de θ bajo la función r si y sólo si Tn∗ es
un estimador insesgado para la imagen de θ bajo r y Vθ [Tn∗ ] ≤ Vθ [Tn ] siendo
Tn = t(X1 , X2 , . . . , Xn ) cualquier otro estimador insesgado para la imagen de
θ bajo la función r.
Teorema 2.2.9 (Teorema de Rao-Blackwell). Siendo X1 , X2 , . . . , Xn una

muestra aleatoria de una población con función de densidad fX (x, θ), r(θ) una
(1) (2)
función de θ, y Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), . . . ,
(m)
Tn = tm (X1 , X2 , . . . , Xn ) estadı́sticas conjuntamente suficientes, y además
siendo la estadı́stica Vn = t(X1 , X2 , . . . , Xn ) un estimador insesgado para la
imagen de θ bajo la función r y Tn∗ = t∗ (X1 , X2 , . . . , Xn ) un estimador tal que
la estimación t∗n se determina como
t∗n = Eθ [Vn |Tn(1) , Tn(2) , . . . , Tn(m) ]
entonces,
1. Tn∗ es una estadı́stica, función de estadı́sticas suficientes sólamente
2. Eθ [Tn∗ ] = r(θ)
3. Vθ [Tn∗ ] ≤ Vθ [Vn ]

con distribución de Bernoulli de parámetro θ.
(1) n
A partir de Tn = X1 , como un estimador insesgado para θ y de Tn = Xi
i=1
una estadı́stica suficiente, se determina la estimación t∗n = Eθ [Tn |Tn ].

(1)

n
n P θ X 1 = 0, X i = t 1
Pθ X1 = 0 | X i = t1 = n i=1

i=1 Pθ X i = t1
i=1

n
Pθ X1 = 0, X i = t1
= n i=2

Pθ X i = t1
i=1
n−1 t
(1 − θ) t1 (θ) 1 (1 − θ)n−1−t1
= n
t1 (θ) (1 − θ)
t1 n−t1
n − t1
=
n

n

n Pθ X1 = 1, X i = t1
Pθ X1 = 1 | X i = t1 = n i=1

i=1 Pθ X i = t1
i=1

n
Pθ X1 = 1, X i = t1 − 1
= n i=2

Pθ X i = t1
i=1
n−1 t −1
θ θ 1
(1 − θ)n−1−t1 +1 t1
= t1 −1 n t =
t1 θ (1 − θ)
1 n−t 1 n
luego

n
n − t1 t1
Eθ X1 | Xi = t1 = 0. + 1.
i=1
n n
en consecuencia
1
n
Tn∗ = Xi
n i=1
θ(1 − θ)
V [Tn ] = θ(1 − θ) > V [Tn∗ ] =
n
Definición 2.2.26. Sea X una variable aleatoria cuya función de densidad es
∂
fX (x, θ) tal que ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R.
∂θ
La información de Fisher acerca del parámetro θ en la variable aleatoria X,
I(θ) se define como

2
∂
I(θ) = Eθ ln fX (X, θ)
∂θ
2
2 ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R la información
∂
Nota. Si ∂θ
de Fisher acerca del parámetro θ, en la variable aleatoria X, también puede
definirse como
2
∂
I(θ) = −Eθ ln f X (X, θ)
∂θ2
1 (x−θ)2
Ejemplo 2.2.13. Sea fX (x, θ) = √ e− 2σ2 con σ conocido.
2πσ
√ 1
ln fX (x, θ) = − ln σ − ln 2π − 2 (x − θ)2
2σ

∂ x−θ
ln fX (x, θ) =
∂θ σ2
2
X −θ 1

I(θ) = Eθ 2
= 4 Eθ (X − θ)2
σ σ
Vθ (X) 1
= 4
= 2
σ σ
Definición 2.2.27. La información de Fisher acerca del parámetro θ en
la muestra aleatoria X1 , X2 , . . . , Xn de una población con función de densidad
fX (x, θ) se define como
⎡ 2 ⎤
n
∂
Eθ ⎣ ln fX (Xi , θ) ⎦
∂θ i=1
y es equivalente a nI(θ), siendo I(θ) la información de Fisher acerca del pará-

metro θ en la población, cuya función de densidad es fX (x, θ).
con función de densidad fX (x, θ) y Tn = t(X1 , X2 , . . . , Xn ) una estadı́stica. Se
habla de un caso regular de estimación o de cumplimiento de condi-
ciones de regularidad cuando el modelo escogido para representar el compor-
tamiento de la población y la estadı́stica en consideración cumplen las siguientes
condiciones:
∂
1. ln fX (x, θ) existe para todo x y todo θ ∈ Θ ⊆ R.
∂θ
2. La información de Fisher acerca del parámetro θ en la población I(θ) es
finita para todo θ ∈ Θ.
3. Si la variable X que representa a la población es continua

n n
∂ ∂
··· fX (xi , θ)dx1 . . . dxn = · · · fX (xi , θ)dx1 . . . dxn
∂θ i=1
∂θ i=1
análogamente cuando X es discreta.

4. Si la variable X que representa a la población es continua
n
∂
· · · t(x1 , x2 , . . . , xn ) fX (xi , θ)dx1 dx2 . . . dxn
∂θ i=1
n
∂
= · · · t(x1 , x2 , . . . , xn ) fX (xi , θ)dx1 dx2 . . . dxn
∂θ i=1
análogamente cuando X es discreta.

Teorema 2.2.10 (Desigualdad de Cramer-Rao). Sea X1 , X2 , . . . , Xn una
muestra aleatoria de una población con función de densidad fX (x, θ), r(θ) una
función de θ, Tn = t(X1 , X2 , . . . , Xn ) un estimador para la imagen de θ bajo la
función r y Bθ (Tn ) el sesgo de Tn . Dentro de un caso regular de estimación,

(r (θ) + Bθ (Tn ))2
Eθ (Tn − r(θ))2 ≥
nI(θ)
∂
con Bθ (Tn ) = Bθ (Tn ).
∂θ
Es claro que dentro de un caso regular de estimación, si Tn es un estimador
insesgado para la imagen de θ bajo una función r, la desigualdad de Cramer-Rao
adquiere la versión particular
(r (θ))2
Vθ (Tn ) ≥
nI(θ)
correspondiente a la versión más difundida entendida como la determinación de
una cota para la varianza de cualquier estimador insesgado para la imagen de
θ bajo una función r, conocida precisamente como la cota de Cramer-Rao.
Corolario 2.2.10.1. La igualdad en el teorema 2.2.10 se da cuando
n
∂
ln fX (xi , θ) = K(θ, n) (t(x1 , x2 , . . . , xn ) − r(θ))
∂θ i=1
en este caso Tn es un UMVUE para la imagen de θ bajo la función r.

En la desigualdad de Schwarz E[(XY )2 ] = E[X 2 ]E[Y 2 ] cuando Y = kX,

[Bθ (Tn ) + r (θ)]
2
siendo k una constante. Por lo tanto Eθ (Tn − r(θ))2 =
nI(θ)
cuando existe una constante tal que,
n
∂
ln fX (xi , θ) = k(tn − r(θ))
∂θ i=1
En esta oportunidad se menciona la estimación máximo-verosı́mil en relación

con la consistencia asintóticamente normal, como una propiedad particular
que en casos especiales presentan los estimadores construidos mediante este
procedimiento. El siguiente teorema da fe de ello.
Teorema 2.2.11. En un caso regular de estimación, si Tn es el estimador
máximo verosı́mil para la imagen de θ bajo la función r , Tn es un estimador
CAN de tal manera que

√ d 1
n(Tn − r(θ)) −
→ N 0,
I(θ)
1 n
Ejemplo 2.2.14. Siendo Pn = Xi el MLE para θ en el caso de una
n i=1
población de Bernoulli de parámetro θ, Pn es un estimador CAN para θ. Esto
es
√ d
n(Pn − θ) −→ N (0, θ(1 − θ))

n
Para el modelo de Bernoulli y la estadı́stica Xi se cumplen las condiciones
i=1
de regularidad, entonces
fX (x, θ) = θx (1 − θ)1−x I{0,1} (x)
ln fX (x, θ) = x ln θ + (1 − x) ln(1 − θ)
∂ x 1−x
ln fX (x, θ) = −
∂θ θ 1−θ
2
X 1−X
I(θ) = Eθ −
θ 1−θ
1
2
= 2 Eθ ((1 − θ)X − θ(1 − θ))
θ (1 − θ)2
1 6 7 Vθ (X)
= 2 Eθ (X − θ)2 = 2
θ (1 − θ)2 θ (1 − θ)2
θ(1 − θ) 1
= 2 =
θ (1 − θ)2 θ(1 − θ)
luego
√ d
n(Pn − θ) −
→ N (0, θ(1 − θ))
(2)
Definición 2.2.29. La eficiencia relativa de Tn = t2 (X1 , X2 , . . . , Xn ) con
(1)
respecto a Tn = t1 (X1 , X2 , . . . , Xn ), estimadores insesgados para la imagen de
θ bajo una función r, basados en una muestra aleatoria X1 , X2 , . . . , Xn de una
población con función de densidad fX (x, θ), corresponde al cociente
(1)
Vθ [Tn ]
(2)
Vθ [Tn ]
Siendo la eficiencia relativa un elemento de comparación entre dos esti-

madores, pueden involucrarse elementos adicionales para enriquecer la men-
cionada comparación, como por ejemplo el tamaño de la muestra. Suponiendo
(1) (2)
que Tn y Tm seandos estimadores para la imagen
de θ bajo una función r,
(1) σ12 (θ) (2) σ22 (θ)
tales que Tn ∼ N r(θ), y Tm ∼ N r(θ), asumiendo que
n m
(2) (1)
σ12 (θ) < σ22 (θ), la eficiencia relativa de Tm con respecto a Tn corresponde a
σ12 (θ)
n
σ22 (θ)
m
(2) (1)
En estos términos, Tm será tan eficiente como Tn en la medida que la citada
σ 2 (θ) n
eficiencia tenga un valor igual a uno; caso en el cual 12 = . Teniendo en
σ2 (θ) m
n
cuenta que σ12 (θ) < σ22 (θ), entonces < 1. Si en gracia a esta consideración
m
2
σ (θ) (2)
el valor del cociente 12 se asume en 0.9 quiere decir que Tm requiere una
σ2 (θ)
muestra de un tamaño cercano al 11.11% mayor que el tamaño de la mues-
(1)
tra n calculado con base en el estimador Tn para tener igual desempeño, o
(1)
igualmente que a Tn sólo le basta contar con un 90% del tamaño de muestra
(2)
calculado para Tm .
(2)
Definición 2.2.30. La eficiencia relativa asintótica de Tn con respecto a
(1) (1) (2)
Tn , siendo Tn y Tn estimadores CAN, para la imagen de θ bajo una función
r, con varianzas σ1 (θ) y σ22 (θ) respectivamente, es el cociente
2
σ12 (θ)
σ22 (θ)
Definición 2.2.31. En un caso regular de estimación la eficiencia de un
estimador Tn insesgado para la imagen de θ bajo una función r se define como
(r (θ))2 / nI(θ)
Efθ (Tn ) =
Vθ [Tn ]
Definición 2.2.32. En un caso regular de estimación, si Tn un estimador
insesgado para la imagen de θ bajo una función r , Tn se denomina estimador
eficiente o BRUE (best regular unbiased estimator) para la imagen de
θ bajo la función r si Efθ (Tn ) = 1.
Nota. Todo BRUE es un UMVUE, mas no todo UMVUE es BRUE.
Definición 2.2.33. En un caso regular de estimación, la eficiencia asintótica
de un estimador Tn insesgado para la imagen de θ bajo una función r, se define
como
lim Efθ (Tn )
n→∞

1 −1x
fX (x, θ) = e θ I(0,∞) (x)
θ
1
Teniendo en cuenta que E[X] = θ, V [X] = θ2 , I(θ) = θ2 , y que X n es MLE
para θ, entonces
θ2
E[X n ] = θ V [X n ] =
n
de donde,
1 θ2
1
n 2
Efθ (X n ) = θ2 = n2 = 1
θ θ
n n
luego X n es un BRUE y UMVUE para θ.
2.2.5 Completez, un requisito de la distribución muestral

El requerimiento de completez, es el menos intuitivo de los requisitos. Tomado
del análisis funcional, en lo concerniente a un conjunto completo de elementos
de un espacio de Hilbert, se adapta y configura una formalidad que puede clasi-
ficarse como un requisito referente a la familia de densidades correspondiente a
la distribución muestral de la estadı́stica en examen.
Definición 2.2.34. La familia de densidades {fX (x, θ)|θ ∈ Θ} se dice que es

una familia de densidades completa si la condición
Eθ [z(X)]
para todo θ ∈ Θ, implica que Pθ [z(X) = 0] = 1 para todo x tal que fX (x, θ) > 0.

con función de densidad fX (x, θ) y Tn = t(X1 , X2 , . . . , Xn ) una estadı́stica. Tn
se dice que es una estadı́stica completa para el parámetro θ si la función de
densidad fTn (t) pertenece a una familia de densidades completa.
Ejemplo 2.2.16. La familia de densidades

! "
n
fX (x, θ) = (1 − θ) θ | θ ∈ (0, 1)
n−x x
x
es una familia de densidades completa. Es ası́ puesto que si
Eθ [z(X)] = 0

n
n j
0= z(j) θ (1 − θ)n−j
j=1
j
n j
n θ
0= z(j) (1 − θ)n
j=1
j 1 − θ
n
n j θ
0= z(j) α , α=
j=1
j 1−θ
luego

n 0 n 1 n n
0 = z(0) α + z(1) α + · · · + z(n) α
0 1 n
y la única forma de tener esta igualdad es cuando
z(0) = z(1) = · · · = z(n) = 0
entonces Eθ [z(X)] = 0 implica que z(j) = 0, para j = 0, 1, 2, . . . , n. Por lo

tanto, la familia de densidades Binomial es completa.

con distribución de Bernoulli de parámetro θ, la estadı́stica

n
Xi
i=1

n
es una estadı́stica completa para θ. En efecto, Xi ∼ Bin(n, θ), como se
i=1
confirmó la familia de densidades Binomial es completa, entonces la estadı́stica
n
Xi es completa.
i=1

Uniforme en el intervalo (0, θ), Xn,n es una estadı́stica completa para θ. En
efecto, como
y
1 1
FX (y) = dx + I(0,∞) (y) = yI(0,θ)(y) + I(0,∞) (y)
0 θ θ
la función de densidad del máximo de la muestra es
fXn,n (y) = n[FX (y)]n−1 fX (y)

n−1
1 1
=n y I (y)
θ θ (0,θ)
n
= n y n−1 I(0,θ) (y)
θ
Partiendo de la condición
θ
n n−1
Eθ [z(Y )] = z(y) y dy = 0
0 θn
θ
n
= n z(y)y n−1 dy = 0
θ 0
y utilizando el Teorema Fundamental del Cálculo se obtiene que
z(θ)θn−1 = 0 es decir z(θ) = 0 para todo θ > 0
con lo cual se concluye que Xn,n es una estadı́stica completa para θ, porque
Eθ [z(X)] = 0 implica que z(y) = θ para 0 < y < θ.
Ejemplo 2.2.19. La familia de densidades
! "
1 1
fX (x, θ) = e− θ x I(0,∞) (x) | θ > 0
θ
es una familia completa.
∞
1 1
Eθ [z(Tn )] = 0 = z(t)e− θ t dt
0 θ
expresión que corresponde a la transformada de Laplace de una función z(t) con

θ > 0. Si esta transformación es cero para todo θ > 0 entonces z debe ser la
función nula.
La familia exponencial de densidades ha mostrado un conjunto de propiedades
interesantes. El siguiente teorema viene a ampliar ese conjunto incluyendo una
propiedad adicional que integra la suficiencia y la completez en esta familia.
con función de densidad fX (x, θ), función de densidad que pertenece a la familia

n
exponencial de densidades, la estadı́stica natural de la familia d(Xi ) es una
i=1
estadı́stica suficiente y completa para θ.
El concepto de completez no dispone de la autonomı́a de otros requisitos en
el proceso de facultar estadı́sticas, por ello a priori no es fácil intuir su senti-
do ni tampoco comprender su inclusión dentro de una lista de requisitos. La
integración de la completez al conjunto de requerimientos responde a que su
participación en la configuración de un UMVUE, participación expresa en el
enunciado del Teorema de Lehmann-Scheffé, es obligatoria para la sustentación
de uno de los argumentos de la demostración del mismo; realmente su impor-
tancia radica en este hecho. Se puede afirmar que la completez es un requisito
indirecto para el examen o mejoramiento de la precisión de un estimador.
Como exordio al valioso teorema de Lehmann-Scheffé y como argumento en
su demostración se presenta el siguiente teorema.

con función de densidad fX (x, θ), θ ∈ Θ, r(θ) una función del parámetro θ y
Tn = t(X1 , X2 , . . . , Xn ) un estimador insesgado para la imagen de θ bajo la
función r. Si Tn es una estadı́stica completa para θ, entonces Tn es el único
estimador insesgado de la imagen de θ bajo la función r.
Teorema 2.2.14 (Teorema de Lehmann-Scheffé). Sea X1 , X2 , . . . , Xn una

muestra aleatoria de una población con función de densidad fX (x, θ) y r una
(1) (2)
función de θ. Si Tn = t1 (X1 , X2 , . . . , Xn ), Tn = t2 (X1 , X2 , . . . , Xn ), . . . ,
(m)
Tn = tm (X1 , X2 , . . . , Xn ) es una colección de estadı́sticas conjuntamente su-
ficientes y completas para θ y si Tn∗ = t∗ (Tn , Tn , . . . , Tn ) es un estimador
(1) (2) (m)
insesgado para la imagen de θ bajo la función r entonces Tn∗ es UMVUE para

la imagen de θ bajo la función r.

con distribución de Poisson de parámetro θ, X n es UMVUE para θ.
Esta afirmación es cierta, teniendo en cuenta lo siguiente:
1. La familia de densidades a la cual pertenece la densidad de Poisson es una

familia exponencial de densidades. Por lo tanto

n
Xi
i=1
es una estadı́stica suficiente y completa para θ tal como lo garantiza el

teorema 2.2.12.

n
2. X n es una función de la estadı́stica Xi , esta última suficiente y com-
i=1
pleta para θ.
3. X n es un estimador insesgado para θ.
En virtud de estos resultados y con el auxilio del teorema del Lehmann-Scheffé

X n es UMVUE para θ.
Por otra parte, si el interés se centra en estimar la imagen de θ bajo la función
r(θ) = e−θ , donde e−θ = P [X = 0], el proceso de determinar un estimador
UMVUE para e−θ requiere de algunos pasos especiales.
1. I{0} (X1 ) es un estimador insesgado para e−θ , porque

Eθ I{0} (X1 ) = 0.P [X1 ≥ 1] + 1.P [X1 = 0] = e−θ

n
n
2. Eθ I{0} (X1 ) | Xi es una estimación insesgada función de xi con-
i=1 i=1
forme al teorema de Rao-Blackwel (2.2.9), página 84.

n n
Eθ I{0} (X1 ) | Xi = 0.Pθ X1 ≥ 1 | Xi = t
i=1 i=1

n
+ 1.Pθ X1 = 0 | Xi = t
i=1

n

n Pθ X1 = 0, Xi = t
Pθ X1 = 0 | Xi = t = n i=1

i=1 Pθ Xi = t
i=1

n
Pθ X1 = 0, Xi = t
= n i=2

Pθ Xi = t
i=1
n

Pθ [X1 = 0]Pθ Xi = t
= n i=2

Pθ Xi = t
i=1
t
Como cada Xi ∼ P oiss(θ) entonces MXi (t) = eθ(e −1) , i = 1, 2, . . . , n.

n t
Si Y = Xi , entonces MY (t) = e(n−1)θ(e −1) , luego Y ∼ P oiss((n−1)θ).
i=2

n t
−1)
Si Z = Xi , entonces MZ (t) = enθ(e , luego Z ∼ P oiss(nθ).
i=1
por lo tanto,
n

n
e−θ e−(n−1)θ [(n − 1)θ]t /t! n−1 i=1
xi
Pθ X1 = 0 | Xi = t = =
i=1
e−nθ (nθ)t /t! n
n

n n−1 xi
Entonces Eθ I{0} (X1 ) | Xi = n i=1 , luego la estadı́stica
i=1
n
Xi
n−1 i=1
n
es un estimador insesgado función de una estadı́stica suficiente y completa,
por lo tanto es UMVUE para e−θ .
Ejemplo 2.2.21. Determinar un UMVUE para θ cuando el modelo asumido
para representar la población es un modelo Exponencial negativo,
fX (x, θ) = θe−θx I(0,∞) (x)


n
1. fX (x, θ) pertenece a la familia exponencial de densidades, Xi es una
i=1
estadı́stica suficiente y completa para θ.

n 1
2. X n es una función de Xi , X n es un estimador insesgado para , por
i=1 θ
1
lo tanto X n es un UMVUE para
θ
c
El estimador para θ se intuye como
n con c constante, entonces
Xi
i=1
⎡ ⎤
∞
⎢ c ⎥ 1 1
n
⎢
Eθ ⎣ ⎥
n ⎦ = θ = c Eθ T = c t
fT (t)dt, T = Xi
Xi 0 i=1
i=1
como la suma de variables aleatorias con distribución exponencial es una variable

aleatoria con distribución Gama, se tiene que
⎡ ⎤

⎢ c ⎥ ∞
1 1 n n−1 −θt
Eθ ⎢
⎣n
⎥=c
⎦ θ t e dt
o t Γ(n)
Xi
i=1
∞
1
=c θn tn−2 e−θt dt
Γ(n) 0
∞
cθ
= un−2 e−u du utilizando la sustitución u = θt
Γ(n) 0
cθΓ(n − 1) cθ
= = n>1
Γ(n) n−1
n−1
Un estimador insesgado para θ es
n , el cual es una estadı́stica función de
Xi
i=1
una estadı́stica suficiente y completa. Por ser insesgado para θ, es UMVUE
para el parámetro θ.
Expuestos, de manera separada por razones académicas, los criterios más

conocidos para facultar estadı́sticas como estimadores de parámetros, le resta
entonces al lector con el apoyo de los ejercicios propuestos y de los que encuentre
en otros textos, la realización de una actividad de sı́ntesis conceptual integradora
de los requisitos exigibles a los estimadores, respaldada por los enunciados de
los teoremas incluidos y por los argumentos que los garantizan, argumentos que
se presentan en la siguiente sección.
2.2.6 Robustez, un requisito de estabilidad

Este capı́tulo cierra con una breve exposición de un requisito denominado ro-
bustez, término acuñado por Box, pero cuya idea ya habı́a sido expresada mu-
cho antes por Pearson, requisito que en ciertas oportunidades es exigible a al-
gunos estimadores y en forma general a algunos procedimientos estadı́sticos,
que adquiere un destacado interés cuando no existe plena afinidad entre el com-
portamiento global e individual de las observaciones de la muestra y el modelo
postulado como modelo original de las observaciones, o cuando no hay coheren-
cia total con los supuestos admitidos. Los requisitos presentados en el desarrollo
de este capı́tulo de ninguna manera controvierten la afinidad o incompatibilidad
entre las observaciones de la muestra y el modelo original. El modelo define un
ambiente y bajo él, una estadı́stica exhibe sus atributos y desatinos en la misión
de ser un estimador del parámetro caracterı́stico del modelo.
Definición 2.2.36. Un procedimiento o método estadı́stico se denomina ro-

busto, si su desempeño es imperturbable a ligeras discordancias del modelo
original o de los supuestos asumidos con la información acopiada. Particu-
larmente un estimador Tn basado en una muestra aleatoria X1 , X2 , . . . , Xn , de
una población con función de densidad fX (x, θ), recibe la denominación de es-
timador robusto, si su desempeño permanece inalterado ante discrepancias
con el modelo original.
Que el desempeño de un estimador o de un método estadı́stico sea inaltera-

ble frente a ligeras discordancias con el modelo o con los supuestos, es decir que
sea robusto, es en sı́ una propiedad deseable. Sin embargo es un criterio vago
porque es impreciso el término desempeño del estimador , como igualmente es
impreciso el alejamiento del modelo o de los supuestos y como también lo es
el no cumplimiento de los supuestos. El alejamiento de un modelo puede tener
varias facetas: presencia de outliers, valores insólitos bajo el modelo original,
discrepancias en la forma de la densidad, como el apuntamiento y la simetrı́a en-
tre otras. El no cumplimiento de los supuestos por su parte, podrı́a ser taxativo:
no se cumplen unas condiciones sobre las cuales un procedimiento estadı́stico se
ha estructurado, ¿pero en qué medida no se cumplen los supuestos?; por ejemplo
la homoscedasticidad, más alla de la definición clara y precisa de igualdad de
varianzas, ¿cuándo k poblaciones no tienen la misma variabilidad?.
Suponiendo que se desea estimar el promedio poblacional, valor espera-
do de una variable aleatoria, que el estimador elegido es X n , basado en una
muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de densidad
fX (x, θ), y que asumido el modelo original, X n posee propiedades inmejorables,
propiedades válidas únicamente bajo la regencia del modelo adoptado, ante la
presencia de discrepancias con el modelo puede menoscabarse su idoneidad, en
cuyo caso se habları́a de la no robustez del estimador.
Las discrepancias con el modelo se pueden teorizar de variadas formas, una
de ellas en forma particular a través de la contaminación.
Definición 2.2.37. Una variable aleatoria Xc se dice que es una variable

aleatoria contaminada, si su función de densidad fXc (x, θ) es un combi-

nación lineal de dos o más funciones de densidad,

k
k
fXc (x, θ) = j fXj (x), siendo j = 1
j=1 j=1
Concretamente si la función de densidad del modelo original es fX (x, θ), y

las discrepancias con el modelo motivan la consideración de una nueva función
de densidad para la variable aleatoria X, de la forma
fXc (x, θ) = (1 − )fX (x, θ) + g(x)
elegida g(x) de manera que sea la responsable de generar los valores insólitos,
bajo el modelo original cuya función de densidad es fX (x, θ), entonces X n es
altamente sensible frente a las discrepancias citadas. Esa falta de robustez de
la media de la muestra, ha sido paliada por eliminación de los valores más
extremos, o por la utilización de la medianade la muestra, menos afectada por
dichos valores.
En general son varios los mecanismos de enfrentar la no robustez, sólo que
dentro del contexto del capı́tulo se desea en un sentido destacar uno basado en
la idea de excluir valores extremos, o de reemplazarlos para eliminar los outliers
o amortiguar su efecto: los estimadores L y en otro sentido hacer una ligera
mención de los estimadores M.
Definición 2.2.38. Sea X1,n , X2,n , . . . , Xn,n , una muetra ordenada de una po-
blación con función de densidad fX (x, θ), θ ∈ Θ ⊆ R, θ un parámetro de loca-
lización. Un estimador L para θ, es una estadı́stica de la forma

n
Tn = cn,i Xi,n
i=1
donde los coeficientes cn,i , i = 1, 2, . . . , n están determinados.
Son ejemplos de estimadores L, el promedio, el mı́nimo y el máximo de

la muestra, pero deben destacarse, respondiendo a esta idea de exclusión o
reemplazo de valores extremos, los promedios recortados y los promedios
“windsorizados”.
Un α-promedio recortado, es el promedio aritmético de las n − 2[nα] es-
tadı́sticas de orden centrales, con 0 < α < 12 , es decir que se elimina la fracción
α de las observaciones inferiores de la muestra e igualmente se elimina la frac-
ción α de las observaciones superiores de la muestra y con la restante fracción
de observaciones 1 − 2α, se determina el promedio aritmético que justamente se
adjetiva como recortado. Su expresión corresponde a
1
n−[nα]
r X n,α = Xi,n
n − 2[nα]
i=[nα]+1
Un α-promedio windsorizado, no elimina la fracción α de las observaciones infe-

riores ni la fracción α de las observaciones superiores de la muestra, 0 < α < 12 ,
sino que reemplaza cada una de ellas por las estadı́sticas de orden X[nα]+1,n y
Xn−[nα],n respectivamente y luego considera el promedio aritmético de estas n
variables como lo indica su expresión,
⎧ ⎫
1⎨ ⎬
n−[nα]
w X n,α = [nα]X[nα]+1,n + Xi,n + [nα]Xn−[nα],n

n⎩ ⎭
i=[nα]+1
Por otra parte un estimador M para θ, basado en una muestra aleatoria

X1 , X2 , . . . , Xn , de una población con función de densidad fX (x, θ), es un esti-
mador que minimiza la suma

n
H(Xi − t)
i=1
siendo H una función predeterminada, o es un estimador que es solución de la

ecuación

n
h(Xi − t) = 0
i=1
igualmente para una función h predeterminada. Entonces el estimador M está

dependiendo de una elección de una función H o h según sea el fin. Como casos
especiales se pueden construir estimadores M correspondientes a los estimadores
∂
máximo-verosı́miles tomando h(x, t) = − ln fX (x, θ) como también construir
∂t
estimadores M correspondientes a los denominados estimadores de mı́nimos
cuadrados tomando H(x, t) = (x − t)2 , estimadores muy corrientes en los
Modelos lineales y en el Diseño experimental.
Finalmente, es pertinente señalar que en la actualidad se utilizan proce-
dimientos de mejoramiento de estimadores, procedimientos que requieren de
extenso uso de cómputo estadı́stico, conocidos como métodos de remuestreo, de
los cuales se destacan el jackknifing y el boostraping, consistentes en pocas pa-
labras en la utilización sistemática de todas las posibles submuestras obtenidas
removiendo observaciones de la muestra original y calculando la estimación co-
rrespondiente.

Demostración (Teorema 2.1.1). En primer lugar, asumiendo que la función
∗
r(θ) = θ∗ es una función uno a uno, con dominio Θ y recorrido Θ , entonces
θ = r−1 (θ∗ ). Como la función de verosimilitud L(θ; x1 , x2 , . . . , xn ) tiene máximo
en el punto θ = tn es equivalente a afirmar que la función tiene máximo en el
punto r−1 (θ∗ ) = tn , es decir en θ∗ = r(tn ). De esta manera el MLE de θ∗ es
r(Tn ).
En segundo lugar, si la función r(θ) no es una función uno a uno, el prin-

cipio de invarianza se mantiene. Como se afirmó la función de verosimilitud
tiene máximo en el punto θ = tn . Varios valores de θ tienen como imágen a
θ∗ = r(tn ), uno de ellos hace máxima a L(θ; x1 , x2 , . . . , xn ) precisamente θ = tn .
En conclusión, cualquiera sea el caso el MLE de θ∗ = r(θ) es r(Tn ).
Demostración (Teorema 2.1.4). Como preparación a la demostración, hay

que tener presente que el momento central de orden r, μr = E [(X − μ)r ] puede
expresarse en términos de los momentos ordinarios, de menor orden. Utilizando
el teorema binomial se logra dicho propósito.
⎡ ⎤
r r
r r
μr = E [(X − μ)r ] = E ⎣ X j (−μ)r−j ⎦ = (μj )j (−μ)r−j
j=0
j j=0
j
Igualmente el momento muestral central de orden r, puede expresarse en términos

de los momentos muestrales ordinarios de menor orden.
r
1 r 1 r
n n
Xi − X n = Xij (−X n )r−j
n i=1 n i=1 j=0 j
n
r
1 r j r−j
= Xi (−X n )
j=0
n i=1 j
r n
r 1
= (−X n )r−j Xij
j=0
j n i=1

r j
r
= Mj (−X n )r−j
j=0
j
como el momento μ2r existe, los momentos μs y μs , s ≤ 2r, existen. El teorema
1.4.5, página 14, y el teorema 2.1.3, página 61 garantizan que
r r
r j p r j
Mr = Mj (−X n )r−j −
→ μj (−μ)r−j
j=0
j j=0
j
Demostración (Teorema 2.2.1). Este teorema coincide con el teorema 1.6.1,

vista la estadı́stica de orden X[np]+1,n como estimador de xp .
Demostración (Teorema 2.2.2). La demostración se realizará en dos senti-

dos. En primer lugar se supone la suficiencia de la estadı́stica para concluir que
la función de verosimilitud se puede expresar como el producto de factores en la
forma indicada. La segunda parte se desarrolla en sentido contrario.
Se considera únicamente el caso discreto, porque el caso continuo requiere de
consideraciones adicionales; sin embargo las ideas y argumentos utilizados son
similares para los dos casos.
Antes de abordar la demostración, como X1 , X2 , . . . , Xn constituyen una

muestra aleatoria,
P [X1 = x1 , X2 = x2 , . . . , Xn = xn ] = fX (x1 , θ)fX (x2 , θ) · · · fX (xn , θ)

= L(θ; x1 , x2 , . . . , xn )
Para efectos de notación, al conjunto de valores (x1 , x2 , . . . , xn ) tales que

t(x1 , x2 , . . . , xn ) = t,llamado un entorno de Tn , se denota como A(t), con
lo cual Pθ [Tn = t] = L(θ; x1 , x2 , . . . , xn ).
A(t)
En primer término, como se habı́a manifestado, se parte del supuesto de que
Tn es una estadı́stica suficiente para θ es decir que
Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t]
no depende de θ, probabilidad que puede denotarse como h(x1 , x2 , . . . , xn ) porque

únicamente depende de los valores particulares x1 , x2 , . . . , xn . Por otra parte,
la probabilidad Pθ [Tn = t] al depender del valor t y de θ puede denotarse como
g(t, θ), con lo cual
L(θ; x1 , x2 , . . . , xn ) = Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn ]
= Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] Pθ [Tn = t]
= h(x1 , x2 , . . . , xn )g(t, θ)
En segundo término, partiendo del supuesto de que
L(θ; x1 , x2 , . . . , xn ) = g(t, θ)h(x1 , x2 , . . . , xn )
y considerando un valor particular t (evidentemente si (x1 , x2 , . . . , xn ) ∈

/ A(t)
Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] = 0)
Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn |Tn = t] = Δ
Pθ [X1 = x1 , X2 = x2 , . . . , Xn = xn ] L(θ; x1 , x2 , . . . , xn )
Δ= =
Pθ [Tn = t] L(θ; x1 , x2 , . . . , xn )
A(t)
g(t, θ)h(x1 , x2 , . . . , xn ) g(t, θ)h(x1 , x2 , . . . , xn )

= =
h(x1 , x2 , . . . , xn )g(t, θ) g(t, θ) h(x1 , x2 , . . . , xn )
A(t) A(t)
h(x1 , x2 , . . . , xn )
=
h(x1 , x2 , . . . , xn )
A(t)
que no depende de θ.
Demostración (Teorema 2.2.4). La demostración de este teorema es muy
similar a la demostración del teorema que hace referencia al criterio de
factorización de Fisher-Neyman para el caso de una estadı́stica suficiente uni-

dimensional.
Para efectos de la demostración, se introducen algunos elementos como el
vector T = (Tn , Tn , . . . , Tn ) , el conjunto A(t) que para este caso se re-
(1) (2) (m)
fiere al conjunto de valores (x1 , x2 , . . . , xn ) tales que t1 (x1 , x2 , . . . , xn ) = t1 ,

t2 (x1 , x2 , . . . , xn ) = t2 , . . . , tm (x1 , x2 , . . . , xn ) = tm y t corresponde al vector
t = (t1 , t2 , . . . , tm ) , con lo cual

Pθ Tn(1) = t1 , Tn(2) = t2 , . . . , Tn(m) = tm = Pθ [T = t] = L(θ; x1 , x2 , . . . , xn )
A(t)
El desarrollo de la demostración a partir de estos elementos es el mismo que se

realizó para el caso de una estadı́stica suficiente unidimensional.
Demostración (Teorema 2.2.5). Siendo Tn una estadı́stica suficiente para

θ, entonces según el criterio de factorización de Fisher-Neyman,
L(θ; x1 , x2 , . . . , xn ) = g(t(x1 , x2 , . . . , xn )); θ)h(x1 , x2 , . . . , xn )
En el caso de ser Tn∗ = t∗ (X1 , X2 , . . . , Xn ) el único MLE de θ, entonces θ = t∗

hace máxima a L y por supuesto a g(t(x1 , x2 , . . . , xn )), luego t∗ es una función
de t(x1 , x2 , . . . , xn ).
Demostración (Teorema 2.2.9). En cuanto al punto 1, afirmar que Tn∗ es

una estadı́stica función de estadı́sticas suficientes sólamente, es consecuencia del
(1) (2) (m)
hecho de ser Tn , Tn , . . . , Tn , una colección de estadı́sticas conjuntamente
suficientes; debido a su construcción Tn∗ es una estadı́stica suficiente por ser
función únicamente de dicha colección.
Con referencia al punto 2, se considera sólo el caso en el cual la variable
aleatoria que representa a la población es una variable continua; el caso discreto
es similar.
(1) (2) (m)
Como el objeto es concluir que Eθ Eθ Vn |Tn , Tn , . . . , Tn = r(θ),
para facilitar la notación, la colección de estadı́sticas conjuntamente suficientes
se dispone en el vector aleatorio T = (Tn , Tn , . . . , Tn ) cuya función de
(1) (2) (m)
densidad es fT (t), siendo t = (t1 , t2 , . . . , tn ).

∞

Eθ [Vn |T ] = vn fVn |T (vn |t) dvn
−∞
∞
fVn ,T (vn , t)
= vn dvn
−∞ fT (t)
5∞
vn fVn ,T (vn , t)dvn
= −∞ = c(t)
fT (t)
El valor esperado Eθ [Vn |T ] = c(t) es una función que depende únicamente de

los valores particulares de t.
Eθ [Eθ [Vn |T ]] = Eθ [c(T )]

∞ ∞ ∞
= ··· c(t)fT (t)dt1 dt2 · · · dtm
−∞ −∞ −∞
∞ ∞ ∞ ∞
= ··· vn fVn ,T (vn , t)dvn dt1 dt2 · · · dtm
−∞ −∞ −∞ −∞
5∞
porque −∞ vn fVn ,T (vn , t)dvn = c(t)fT (t), intercambiando apropiadamente el
orden de integración se tiene que
∞ ∞ ∞
Eθ [Eθ [Vn |T ]] = vn ··· fVn ,T (vn , t)dt1 dt2 · · · dtm dvn
−∞ −∞ −∞
∞
= vn fVn (vn )dvn = E[Vn ] = r(θ)
−∞
5∞ 5∞
porque −∞ · · · −∞ fVn ,T (vn , t)dt1 dt2 · · · dtm = fVn (vn ).
Para concluir el desarrollo de lo pertinente al punto 3, se parte de la conocida
adición de un cero, ası́

Vθ [Vn ] = Eθ (Vn − r(θ)2 ) = Eθ (Vn − c(T ) + c(T ) − r(θ))2

= Eθ (Vn − c(T ))2 + Eθ (c(T ) − r(θ))2

= Eθ (Vn − c(T ))2 + Vθ [c(T )]
puesto que Eθ [c(T )] = r(θ) y 2Eθ [(Vn − c(T ))(c(T ) − r(θ))] = 0.

Eθ [(Vn − c(T ))(c(T ) − r(θ))] = 0, como se deduce a continuación.

Eθ [(Vn − c(T ))(c(T ) − r(θ))] = Eθ [Vn c(T )] − r2 (θ) − Eθ c2 (T ) + r2 (θ)
= Eθ [c(T )(Vn − c(T ))] = Δ
∞ ∞ ∞ ∞
Δ= ··· c(t)(vn − c(t))fVn ,T (vn , t)dvn dt1 dt2 · · · dtm
−∞ −∞ −∞ −∞
∞ ∞ ∞ ∞
= ··· c(t) (vn − c(t))fVn ,T (vn , t)dvn dt1 dt2 · · · dtm
−∞ −∞ −∞ −∞
∞ ∞
(vn − c(t))fVn ,T (vn , t)dvn = vn fVn ,T (vn , t)dvn
−∞ −∞
∞
− c(t) fVn ,T (vn , t)dvn
−∞
= c(t)fT (t) − c(t)fT (t) = 0
por lo tanto Δ = Eθ [c(T )(Vn − c(T ))] = 0. Regresando al paso en el cual se

enunció que

Vθ [Vn ] = Eθ (Vn − c(T ))2 + Vθ [c(T )]
y teniendo en cuenta que

Eθ (Vn − c(T ))2 ≥ 0
entonces Vθ [c(T )] ≤ Vθ [Vn ] o Vθ [Eθ [Vn |T ]] ≤ Vθ [Vn ]. En sı́ntesis,
Vθ [Tn∗ ] ≤ Vθ [Vn ]
Demostración (Teorema 2.2.10). Esta demostración parte de la definición
de sesgo y utiliza las condiciones de regularidad como argumentos para su de-
sarrollo. Dado que Bθ (Tn ) = Eθ (Tn ) − r(θ),
Bθ (Tn ) + r(θ) = Eθ (Tn )
∞ ∞
∞ n
= ··· t(x1 , · · · , xn ) fX (xi , θ) dx1 · · · dxn
−∞ −∞ −∞ i=1
∂
como se trata de un caso regular de estimación, Bθ (Tn ) + r (θ) = Δ
∂θ

∞ ∞ ∞ n
∂
Δ= ··· t(x1 , · · · , xn ) fX (xi , θ) dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1
n
∞ ∞ ∞ n
∂
= ··· t(x1 , · · · , xn ) ln fX (xi , θ) fX (xi , θ)dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1 i=1
n
∂ ) n ∂ )n )
puesto que fX (xi , θ) = ln fX (xi , θ) fX (xi , θ) porque
∂θ i=1 ∂θ i=1
d

g (x)
d
i=1
dx ln g(x) = g(x) , y por lo tanto g (x) = dx ln g(x) g(x).

Antes de continuar, es necesario demostrar que
∞ ∞ ∞ n
n
∂
··· r(θ) ln fX (xi , θ) fX (xi , θ) dx1 · · · dxn = 0
−∞ −∞ −∞ ∂θ i=1 i=1
es nula dicha expresión porque

∞ ∞ ∞ n
n
∂
r(θ) ··· ln fX (xi , θ) fX (xi , θ) dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1 i=1
∞ ∞ ∞ n
∂
= r(θ) ··· fX (xi , θ)dx1 · · · dxn
−∞ −∞ −∞ ∂θ i=1
∞ ∞ ∞ n
∂ ∂
= r(θ) ··· fX (xi , θ)dx1 · · · dxn = r(θ) (1) = 0
∂θ −∞ −∞ −∞ i=1 ∂θ
Continuando el desarrollo de la demostración y utilizando

)
n
L = L(θ; x1 , x2 , . . . , xn ) = fX (xi , θ),
i=1
∞ ∞ ∞
∂
Δ= ···
(t(x1 , · · · , xn ) − r(θ)) ln L (L) dx1 · · · dxn
−∞ −∞ −∞ ∂θ
n

∂
= Eθ (Tn − r(θ)) ln fX (Xi , θ)
∂θ i=1

la cual afirma que si X, Y son dos variables
Aplicando la desigualdad
de Schwarz
2
aleatorias, [E[XY ]] ≤ E[X 2 ] Y 2 por lo tanto
+ n 2
,
,

Bθ (Tn ) + r (θ) = - Eθ (Tn − r(θ))
∂
ln fX (Xi , θ)
∂θ i=1

≤ Eθ [(Tn − r(θ))2 ] nI(θ)

entonces [Bθ (Tn ) + r (θ)]2 ≤ Eθ (Tn − r(θ))2 [nI(θ)], con lo cual se permite
establecer la cota:

[B (Tn ) + r (θ)]2
Eθ (Tn − r(θ))2 ≥ θ
nI(θ)
Demostración (Teorema 2.2.13). Suponiendo que exista otro estimador

insesgado para la imagen de θ, que sea función de Tn , especı́ficamente
Un = h(Tn ), entonces Eθ [Un ] = r(θ). Bajo la hipótesis del teorema,
Eθ [Tn ] = r(θ), por lo tanto Eθ [Tn ] − Eθ [Un ] = 0 lo cual equivale a afirmar
que
Eθ [Tn − h(Tn )] = 0
pero como Tn es una estadı́stica completa, Pθ [(Tn − h(Tn )) = 0] = 1. Como

consecuencia, la función h obligatoriamente es la función idéntica, es decir Tn
es único.

1. Al considerar el modelo Beta como modelo para representar el compor-
tamiento probabilı́stico de una población, es preciso saber como se deben
estimar las dos constantes que intervienen en el modelo. Teniendo presente
que la función de densidad de una variable aleatoria X con distribución
Beta es
1
fX (x, θ) = xθ1 −1 (1 − x)θ2 −1 I(0,1) (x)
β(θ1 , θ2 )
Los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0.
¿Cuál es el MLE para θ?. ¿Cuál es el estimador por el método de los
momentos para θ?.
Dado el caso en el cual se asuma conocido o fijo el valor de θ1 , ¿cuál es el
MLE para θ2 ?, ¿cuál es el estimador por el método de los momentos para
θ2 ?, ¿es pertinente pensar en estimador por analogı́a para θ2 ?.
Igualmente, dado el caso en el cual se asuma conocido o fijo el valor de
θ2 , ¿cuál es el MLE para θ1 ?, ¿cuál es el estimador por el método de los
momentos para θ1 ?, ¿es factible determinar un estimador por analogı́a
para θ1 ?.
2. El modelo de Pareto es otro de los modelos frecuentemente utilizados.
Recordando que la función de densidad de una variable aleatoria X, con
distribución de Pareto es
θ2 θ1θ2
fX (x, θ) = I (x)
xθ2 +1 (θ1 ,∞)
Los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0.
¿Cuál es el MLE para θ?, ¿cuál es el estimador por el método de los
momentos para θ?, ¿es procedente pensar en un estimador por analogı́a
para θ?.
Asumiendo conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?, ¿cuál
es el estimador por el método de los momentos para θ2 ?, ¿es procedente
la construcción de un estimador por analogı́a para θ2 ?.
De la misma manera, asumiendo conocido o fijo el valor de θ2 , ¿cuál es el
θ1 ?, ¿es factible determinar un estimador por analogı́a para θ1 ?.
3. El modelo Zeta, utilizado particularmente en Lingüı́stica, está construido
con base en la función Zeta de Riemann, función definida como
∞
1
ζ(s) = s
, con s > 1
j=1
j
Una varible aleatoria X se dice que tiene distribución Zeta con parámetro
θ, θ > 0, o que tiene distribución de Zipf (en honor a George Zipf), si su
función de densidad es
1
fX (x, θ) = θ I{1,2,... } (x)
x ζ(θ)

en cuyo caso E X k = ζ(θ−k)
ζ(θ) , con θ > k + 1, k = 1, 2, ... Particularmente
ζ(θ − 1)
E[X] = si θ > 2
ζ(θ)
2
ζ(θ − 2) ζ(θ − 1)
V [X] = − si θ > 3
ζ(θ) ζ(θ)
Explore la forma de estimar puntualmente el parámetro θ.

4. El modelo de Poisson, modelo muy conocido por sus múltiples aplicaciones
incluye una constante θ que corresponde tanto al centro de gravedad de
la función de densidad de una variable aleatoria regido por este modelo
como la cuantificación de la dispersión de la misma. Dado que la función
de densidad de una variable aleatoria X, con distribución de Poisson es
θx −θ
fX (x, θ) = e I{0,1,2,... } (x)
x!
siendo θ > 0, ¿cuál es el MLE para θ?, ¿cuál es el estimador por el método
de los momentos para θ?, ¿cuál es el estimador por analogı́a para θ?.
5. El modelo Gaussiano representa una gama amplia de situaciones y es el
modelo capital en Estadı́stica. Es necesario diferenciar las formas como se
deben estimar las dos constantes que participan en el modelo. Señalando
que la función de densidad de una variable aleatoria X, con distribución
Gaussiana es
1 (x−θ1 )2
fX (x, θ) = √ e− 2θ2
2πθ2
los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 ∈ R, θ2 > 0.
momentos para θ?.
Para el caso particular en el cual se asuma conocido o fijo el valor de
θ1 , ¿cuál es el MLE para θ2 ?, ¿cuál es el estimador por el método de los
momentos para θ2 ?, ¿cuál es el estimador por analogı́a para θ2 ?.
Del mismo modo, dado el caso en el cual se asuma conocido o fijo el valor
de θ2 , ¿cuál es el MLE para θ1 ?, ¿cuál es el estimador por el método de
los momentos para θ1 ?, ¿cuál es el estimador por analogı́a para θ1 ?.
6. El modelo Gama realmente es una familia de modelos. Las dos con-
stantes que intervienen en la naturaleza del modelo, usualmente llamadas
parámetro de forma y parámetro de escala, se pueden estimar de varias
formas. Recordando que la función de densidad de una variable aleatoria
X, con distribución Gama es
θ2θ1 θ1 −1 −θ2 x
fX (x, θ) = x e I(0,∞) (x)
Γ(θ1 )
los componentes del parámetro θ = (θ1 , θ2 ), son tales que θ1 > 0, θ2 > 0.
momentos para θ?.
Cuando se asume conocido o fijo el valor de θ1 , ¿cuál es el MLE para θ2 ?,
¿cuál es el estimador por el método de los momentos para θ2 ?, ¿cuál es el
estimador por analogı́a para θ2 ?.
Similarmente cuando se asume conocido o fijo el valor de θ2 , ¿cuál es el

θ1 ?, ¿cuál es el estimador por analogı́a para θ1 ?.
7. Una variable aleatoria X, con distribución de Gumbel tiene como función

de distribución a

x − θ1
FX (x, θ) = exp − exp
θ2

Explore la forma de estimar puntualmente el parámetro θ, teniendo en
π2 θ2
cuenta que E[X] = θ1 + γθ2 , siendo γ ≈ 0.577216, y V (X) = 6 2 .
8. Una variable aleatoria X, con distribución de Laplace o con distribución

Exponencial doble, tiene como función de densidad a
1 − |x−θ1|
fX (x, θ) = e θ2
2θ2

Explore la forma de estimar puntualmente el parámetro θ, teniendo en
cuenta que E[X] = θ1 y V [X] = 2θ22 .
n
2
9. Determine la eficiencia relativa asintótica de 1
n Xi − X n frente a
i=1
Sn2 , para estimar σ 2 cuando se ha asumido un modelo Normal con valor
esperado μ y varianza σ 2 .
10. De los dos estimadores para σ 2 del ejercicio anterior, ¿cuál tiene mayor
error cuadrático medio?.
11. Igualmente, de los dos estimadores para σ 2 del ejercicio anterior, ¿cuál
tiene menor varianza?.
12. Un tramposo juega con una moneda de dos sellos, pero algunas veces para
no despertar sospechas, utiliza una moneda equitativa. El objeto de este
ejercicio es estimar cuál moneda está utilizando en un momento dado,
a partir de los resultados de n lanzamientos de una misma moneda,6 es
7
decir, estimar el parámetro θ, cuyo espacio es el conjunto Θ = 12 , 1 .
Compruebe que el MLE para θ es
n n
1
Tn = I{0,1,... ,n−1} Xi + I{n} Xi
2 i=1 i=1
13. ¿El estimador Tn del ejercicio anterior es un estimador insesgado, o es un

estimador asintóticamente insesgado para θ?.
14. Determine el error cuadrático medio del estimador Tn del ejercicio anterior.
15. Siendo las variables aleatorias X1 , X2 , . . . , Xn , una muestra aleatoria de

una población con distribución Uniforme en el intervalo (0, θ), determine
la varianza del estimador por el método de los momentos para θ, basado
en la muestra aleatoria, y examine si es un estimador insesgado para θ.
16. (Este ejercicio y los cinco siguientes hacen referencia al ejercicio 15).
Determine la varianza del estimador máximo-verosı́mil para θ, basado en
la muestra aleatoria, y concluya si es un estimador consistente para θ.
17. Construya un estimador insesgado para θ, que sea función del máximo de
la muestra, y determine su varianza. ¿Es este estimador consistente para
θ?.
18. Entre el estimador del ejercicio anterior y el estimador por el método de
los momentos, ¿cuál elige?
19. ¿Es posible construir un estimador insesgado para θ que sea función del
mı́nimo de la muestra?. Si es factible, identifı́quelo y determine su
varianza. ¿Es este un estimador consistente para θ?.
20. Considere los estimadores para θ de la forma Tn = h(n)Xn,n , siendo h(n)
una función exclusiva del tamaño de la muestra. Determine el estimador
de esta clase que tenga el menor error cuadrático medio.
21. En sı́ntesis, ¿cuál estimador elige como el más apto estimador para θ?.
una población con distribución de Laplace con θ2 = 1, ¿existe una es-
tadı́stica suficiente para θ1 ?.
23. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función
de densidad
θ
fX (x, θ) = I[θ,∞) (x), θ>0
x2
determine el MLE de θ. Compruebe que este estimador es una estadı́stica
suficiente para θ.
24. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con dis-
tribución de Poisson con parámetro λ y θ = P [Xi = 0] = e−λ , determine
el MLE de θ, mediante dos procedimientos: directamente y usando la
propiedad de invarianza de los estimadores máximo-verosı́miles.
ria de una población con distribución de Bernoulli de parámetro θ, deter-
mine el MLE para la varianza poblacional.
ria de una población con distribución Gaussiana de valor esperado θ1 y
varianza θ2 , determine el MLE para θ12 + θ2 .
27. Determine la cota de Cramer-Rao para la varianza de los estimadores

insesgados para θ, basados en una muestra aleatoria de tamaño n de una
población con distribución de Bernoulli de parámetro θ.
28. Teniendo en cuenta el ejercicio anterior, ¿existe un UMVUE para θ?.

ria de una población con distribución Binomial de valor esperado mθ y
varianza mθ(1 − θ), con m conocido, θ ∈ (0, 1). Obtenga el MLE, el esti-
mador por el método de los momentos y el estimador por analogı́a para θ.
¿Existe una estadı́stica suficiente?. Si es factible, determine el UMVUE
para θ.

insesgados para θ, basados en una muestra aleatoria de tamaño n de una
población con distribución de Poisson de parámetro θ.
31. Teniendo en cuenta el ejercicio anterior, ¿existe un UMVUE para θ?.
32. Si se asume el modelo Gaussiano, ¿X n es un UMVUE para el promedio

poblacional?. ¿La varianza de Sn2 es igual a la correspondiente cota de
Cramer-Rao para los estimadores insesgados para la varianza poblacional?.
33. Si se adopta el modelo Gaussiano, y se asume que el promedio poblacional

es conocido, ¿existe un UMVUE para la varianza poblacional?. ¿Qué
ocurrirı́a si no se asume que el promedio poblacional es conocido?.

insesgados para el parámetro de escala, basados en una muestra aleato-
ria de tamaño n de una población con distribución Gama. ¿Existe un
UMVUE para el parámetro de escala?.
35. Teniendo en cuenta una muestra aleatoria de tamaño n de una
población
2
∂
Uniforme en el intervalo (0, θ), calcule Eθ ln fX (x, θ) y compárelo
∂θ
con la varianza del estimador insesgado para θ basado en el máximo de la
muestra. ¿Se presenta alguna contradicción?.
36. Sea X1 , X2 , . . . , Xn una sucesión de variables aleatorias incorrelacionadas

tales que σi2 = V [Xi ] y E[Xi ] = μ, i = 1, 2, . . . , n. Considere el es-
n
timador Tn = βi Xi , siendo β1 , β2 , . . . , βn , constantes determinadas.
i=1
¿Cuál condición deben cumplir estas constantes para que el estimador
Tn sea insesgado para μ?. Determine la varianza de Tn en términos de
β1 , β2 , . . . , βn y σ1 , σ2 , . . . , σn . Bajo la restricción del insesgamiento de
Tn use multiplicadores de Lagrange para comprobar que la varianza de Tn
es mı́nima, cuando
1
jσ2
βj =
n para j = 1, 2, . . . , n
1
σj2
i=1
Si σ1 , σ2 , . . . , σn se asumen conocidas, una estadı́stica como lo sugiere este

ejercicio se denomina BLUE(best linear unbiased estimator) para μ.
37. Teniendo en cuenta lo expuesto en el ejercicio anterior, si las variables

aleatorias X1 , X2 , . . . , Xn , constituyen una muestra aleatoria de una
población con valor esperado μ y varianza σ 2 , ¿X n es BLUE para μ?,
¿se requiere conocer el valor de σ?.
38. Siendo X1 , X2 , . . . , Xn , una muestra aleatoria de una población con dis-

n
tribución de Poisson con parámetro θ, muestre que la estadı́stica Xi es
i=1
una estadı́stica suficiente para θ, ¿existe una estadı́stica suficientte mini-
mal para θ?.
39. Si X1 , X2 , . . . , Xn , una muestra aleatoria de una población con distribu-

ción Gama con parámetro θ = (θ1 , θ2 ) y siendo Gn la media geométrica
muestral, ¿la estadı́stica Tn = (X n , Gn ), es una estadı́stica suficiente para
θ?. Si se asume conocido θ1 , ¿existe un UMVUE para θ2 ?.

tribución Beta con parámetro θ = (θ1 , θ2 ), ¿existe una estadı́stica sufi-
ciente minimal para θ?.

tribución Uniforme en el intervalo (0, θ), ¿existe una estadı́stica suficiente
para θ?.

tribución Uniforme en el intervalo (θ, θ + 1), θ > 0, compruebe que la
estadı́stica (X1,n , Xn,n ) es una estadı́stica suficiente minimal para θ.
43. Muestre que si Tn es una estadı́stica completa para θ, y si Tn es otra

estadı́stica, ella es completa si Tn y Tn son estadı́sticas equivalentes.
44. La estadı́stica
⎡ n 2 ⎤
1
n
1
Xi − ⎣ Xi ⎦
n − 1 i=1 n(n − 1) i=1
basada en una muestra aleatoria X1 , X2 , . . . , Xn de una población con

distribución de Bernoulli de parámetro θ, ¿es UMVUE para θ(1 − θ)?.
45. Y = 100X es el contenido porcentual de calcio en cierto compuesto, que se

puede modelar como una variable aleatoria tal que la función de densidad
de la variable aleatoria X es
fX (x, θ) = θxθ−1 I(0,1) (x), θ>0
Con base en n determinaciones independientes Y1 , Y2 , . . . , Yn , las cuales
se pueden tratar como una muestra aleatoria, encuentre un MLE y un
UMVUE para el contenido medio de calcio. ¿Existe alguna función de θ
tal que haya un estimador insesgado para la imagen de θ, cuya varianza
coincida con su correspondiente cota de Cramer-Rao?.
46. El tiempo en la atención a un cliente en un banco se puede modelar como
una variable aleatoria con distribución Exponencial de valor esperado θ1 .
Con base en una muestra de n clientes atendidos, se desea estimar el
tiempo mediano de atención. Obtenga un MLE y un UMVUE para este
tiempo mediano.
47. El número de animales de cierta especie que se pueden encontrar dentro
de un cuadrante (cuadrado ubicado cartográficamente en el área de in-
vestigación), se modela corrientemente como una vairable aleatoria con
distribución de Poisson de parámetro θ. Existe un interés paricular den-
tro de la descripción de la distribución espacial, por la probabilidad de
encontrar a lo sumo un ejemplar de la especie, es decir, por la función
r(θ) = (1 + θ)e−θ . Construya un MLE y un UMVUE para la imágen de θ
bajo la función r, basado en una muestra aleatoria X1 , X2 , . . . , Xn , siendo
Xi la variable aleatoria que representa al número de animales de la especie
en el i-ésimo cuadrante elegido, i = 1, 2, . . . , n.
48. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con dis-
tribución Gaussiana de valor esperado θ y varianza θ, ¿cuál estimador
considera que debe adoptarse en términos de insesgamiento, completez y
suficiencia?.
49. Si en el ejercicio anterior se establece que el valor esperado es θ y la
varianza θ2 , bajo los mismos términos, ¿de cuál o cuales estimadores se
puede disponer?.
ria de una población con distribución Binomial de valor esperado mθ y
varianza mθ(1 − θ), con m conocido, θ ∈ (0, 1), ¿es factible determinar un
UMVUE para θm ?.
ción Geométrica con parámetro θ, es decir de una población con función
de densidad
fX (x, θ) = (1 − θ)x−1 θI{1,2,... } , θ ∈ (0, 1)
1−θ
Establezca un UMVUE para θ y un UMVUE para θ .
52. Para el análisis de la fatiga de un material, se planea un ensayo con una

muestra de n probetas, el cual culmina cuando k de las n probetas hayan
fallado. Determine el MLE para θ2 suponiendo conocido θ1 si el modelo
adoptado para la descripción del tiempo de falla de la probeta es el modelo
de Weibull, cuya función de densidad es

θ
θ1 θ1 −1 x 1
fX (x, θ) = θ1 x exp − I(0,∞) (x), θ = (θ1 , θ2 )
θ2 θ2
53. Compruebe que la familia de densidades Gama es conjugada para la fun-

ción de densidad de un modelo de Poisson.
54. Teniendo en cuenta el ejercicio anterior determine el estimador Bayesiano

para el parámetro θ de una distribución de Poisson.
55. ¿La familia de densidades Gama es cerrada bajo muestreo para la función
de densidad de un modelo Exponencial?.

ción Uniforme en el intervalo (−θ, θ). ¿Son las estadı́sticas X1,n y Xn,n
conjuntamente suficientes para θ?. ¿Es Tn = max(−X1,n , Xn,n ) un MLE
para θ?. ¿La familia a la cual pertenece la función de densidad de la
población es una familia completa?.

ción Exponencial desplazada con parámetro θ = (θ1 , θ2 ). Determine una
colección minimal de estadı́sticas suficientes para θ.
58. X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función de

densidad
1 − xθ
fX (x, θ) = e I(0,∞) (x)
θ
Muestre que
nX1,n
n
n y Xi
Xi i=1
i=1
son dos variables estadı́sticamente independientes.

59. Se repite un ensayo de Bernoulli, con probabilidad de éxito θ, hasta que
ocurren exactamente k éxitos. Siendo X la variable aleatoria que contabi-
liza el número de ensayos necesarios para obtener los k éxitos. Es decir
que

x−1 k
fX (x, θ) = θ (1 − θ)x−k I{k,k+1,... } (x)
k−1
¿La familia de densidades a la cual pertenece la función de densidad de la

k−1
variable aleatoria X, es una familia completa?. ¿Es x−1 una estimación
insesgada de θ?.
ción Uniforme en el intervalo (θ1 −θ2 , θ1 +θ2 ) con θ1 ∈ R y θ2 > 0. Muestre
que las estadı́sticas X1,n , Xn,n son estadı́sticas conjuntamente suficientes
para θ = (θ1 , θ2 ).
61. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con función

de densidad
fX (x, θ) = θ2 xe−θx I(0,∞) (x), θ>0

n
¿Es Xi una estadı́stica suficiente y completa para θ?. Determine un
i=1

n
estimador insesgado para θ que sea una función de Xi tal que él tenga
i=1
la varianza mı́nima.
62. Compruebe que el MLE para θ es una función de la media geométrica
muestral, y que ésta es una estadistica suficiente y completa para el
parámetro θ, basados en una muestra aleatoria X1 , X2 , . . . , Xn , de una
población con función de densidad
fX (x, θ) = θxθ−1 I(0,1) (x), θ>0

ción Uniforme discreta con parámetro θ, es decir que su función de densi-
dad es
1
fX (x, θ) = I{1,2,... ,θ} (x), θ>0
θ
Muestre que el máximo de la muestra es una estadı́stica suficiente y com-
pleta.
64. Con base en el ejercicio anterior determine un estimador insesgado de
varianza mı́nima para θ.
de densidad
fX (x, θ) = e−(x−θ)I(θ,∞) (x), θ∈R
Determine una estadı́stica suficiente y completa y un UMVUE para θ.

Capı́tulo 3
ESTIMACIÓN POR
INTERVALO DE
PARÁMETROS
Una estadı́stica facultada para estimar un parámetro particular, producirá es-

timaciones alrededor del valor especı́fico del parámetro, porque cumplió con el
requisito de insesgamiento y esas estimaciones serán de la mayor precisión de-
bido a que la estadı́stica elegida posee la menor varianza. Y seguramente tal
estimador tiene en su haber otras cualidades primordiales que lo hacen apto
para su labor, y de esa manera está certificada su competencia.
Esa certificación brinda el suficiente respaldo para que las estimaciones gocen
de toda la confianza, y ası́ poder sustituir esas constantes fundamentales del
modelo por estimaciones válidas y sustentadas, de tal manera que sean la licencia
para poner en marcha el modelo concebido y ası́ responder de manera técnica a
las preguntas pertinentes del fenómeno modelado.
Pero no siempre el fin de la inferencia es estimar un parámetro de la forma
como hasta este punto se ha considerado; en ciertas aplicaciones el propósito
de la inferencia está en el sentido de llevar a cabo un alvalúo de ese parámetro
por medio de un intervalo, emitiendo ya no un único valor sino un rango de
valores como estimación del parámetro. Algunas investigaciones encuentran en
este procedimiento una mejor forma de estimación de parámetros, más útil y
provechosa, frente a la declaración de un único valor; por ello corrientemente
suelen dar a conocer, el punto medio de un intervalo y sus extremos, para
declarar además de la estimación de un parámetro, una idea de variabilidad
asociada a tal estimación, máxime cuando el punto medio corresponde a una
estimación puntual de la mejor calidad.
Este proceder especial de estimación conlleva elementos conceptuales pro-
pios que el presente capı́tulo menciona en su primera parte; también cuenta
con varios métodos para la construcción de esos intervalos de estimación, llama-
dos intervalos confidenciales o intervalos de confianza, de los cuales este texto
115
116 CAPÍTULO 3. ESTIMACIÓN POR INTERVALO DE PARÁMETROS
sólamente tratará el método de la variable pivote. Para comenzar, se da paso

a esta parte inicial, consistente en la primera fase dentro de la construcción
conceptual de la estimación por intervalo de parámetros.
3.1 Conceptos preliminares

Definición 3.1.1. Un intervalo aleatorio es un intervalo tal que al menos
uno de sus extremos es una variable aleatoria.
(1)
con función de densidad fX (x, θ), θ ∈ Θ y Tn = t1 (X1 , X2, . . . , Xn ),
(2) (1) (2)
Tn = t2 (X1 , X2 , . . . , Xn ) dos estadı́sticas tales que Pθ Tn < Tn = 1, r(θ)
una función del parámetro, función
cuyo recorrido es un conjunto de números
(1) (2)
reales. El intervalo aleatorio Tn , Tn se denomina intervalo confidencial
para la imagen de θ bajo r del 100(1 − α)% de confianza si

Pθ Tn(1) < r(θ) < Tn(2) = 1 − α
probabilidad que no depende de θ.

(1) (2)
Definición 3.1.3. En la definición 3.1.2, Tn y Tn reciben el nombre de
lı́mite confidencial inferior y lı́mite confidencial superior respectiva-
mente y el valor 1 − α nivel confidencial o confianza.
Definición 3.1.4. Bajo las consideraciones de la definición 3.1.2 el intervalo
(1) (2)
(t1 , t2 ) como intervalo particular del intervalo confidencial Tn , Tn , se de-
nomina estimación por intervalo del 100(1 − α)% de confianza para la
imagen de θ bajo r.
con función de densidad fX (x, θ), r(θ) una función del parámetro, cuyo
(1)
recorrido es un conjunto de números reales, con δ < r(θ) < βy Tn una
(1) (1)
estadı́stica, Tn = t1 (X1 , X2 , . . . , Xn ). El intervalo aleatorio Tn , β es
un intervalo confidencial unilateral del 100(1 − α)% de confianza para la
(1)
imagen de θ bajo r si Pθ Tn < r(θ) = 1 − α, probabilidad que no depende de
θ.
(2)
También si Tn = t2 (X1 , X2 , . . . , Xn ) es una estadı́stica, el intervalo aleato-
(2)
rio (δ, Tn ) es un intervalo confidencial unilateral del 100(1 − α)% de con-
(2)
fianza para la imagen de θ bajo r, si Pθ [r(θ) < Tn ] = 1 − α, probabilidad que
no depende de θ.
(1) (2)
Definición 3.1.6. Tn y Tn en la definción 3.1.5 reciben respectivamente el
nombre de lı́mite confidencial inferior unilateral para r(θ) y lı́mite con-
fidencial superior unilateral para r(θ).
3.2. EL MÉTODO DE LA VARIABLE PIVOTE 117

(i)
fX (x,
θ), y Tn = ti (X1 , X2 , . . . , Xn ), i = 1, 2, es-
(1) (2)
tadı́sticas tales que Tn , Tn es un intervalo confidencial para θ. Si r(θ) es
una función
estrictamente
monótona con dominio Θ y recorrido un subconjunto
(1) (2)
de R, r Tn , r Tn es un intervalo confidencial para la imagen de θ bajo

(2) (1)
r cuando ésta es estrictamente creciente y r Tn , r Tn es un intervalo
confidencial para la imagen de θ bajo r cuando la función r es estrictamente
decreciente.
El concepto de intervalo confidencial es un caso particular de un concepto
más general: la región confidencial.
con función de densidad fX (x, θ). Un subconjunto A(X1 , X2 , . . . , Xn ) del espa-
cio de las observaciones X, se denomina región confidencial del 100(1 − α)%
de confianza para el parámetro θ, si Pθ [θ ∈ A(X1 , X2 , . . . , Xn )] = 1 − α, pro-
babilidad que no depende de θ.
3.2 El método de la variable pivote

Como se mencionó en la introducción de este capı́tulo, la estimación por inter-
valo posee varios métodos para la construcción de intervalos confidenciales, sin
embargo el de mayor tradición y renombre es el método de la variable pivote,
método que se describe en esta sección.
con función de densidad fX (x, θ). Sea QX = q(θ; X1 , X2 , . . . , Xn ) una función
de las variables que conforman la muestra aleatoria y del parámetro θ. QX se
denomina variable aleatoria pivote (variable pivote) para el parámetro θ
si la distribución de QX no depende de θ.
Normal de valor esperado θ y varianza σ 2 conocida, entonces
√
n(X n − θ)
σ
es una variable pivote para θ porque además de depender de X1 , X2 , . . . , Xn , a
través de X n ,
√
n(X n − θ)
∼ N (0, 1)
σ
Normal de valor esperado θ y varianza σ 2 , X n y Sn2 , el promedio y varianza
muestrales, entonces
√
n(X n − θ)
QX =
Sn
es una variable pivote para θ.

En efecto. QX es una función de X1 , X2 , . . . , Xn a través de X n y Sn . Además,
√
n(X n − θ)
1. ∼ N (0, 1)
σ

n
(Xi − X n )2
(n − 1)Sn2 i=1
2. = ∼ χ2 (n − 1)
σ2 σ2
3. Debido a que X n y Sn2 son estadı́sticamente independientes,
√
n(X n − θ) (n − 1)Sn2
y
σ σ2
también lo son, entonces
√ √
n(X n −θ)
n(X n − θ)
QX = . σ 2 = ∼ t(n − 1)
(n−1)Sn Sn
(n−1)σ2
El método de la variable pivote es el método más utilizado en la construcción

de intervalos confidenciales. Consiste en partir del paso inicial, una vez definido
el coeficiente 1 − α,
Pθ [a < QX < b] = 1 − α
continuar con pasos intermedios que consisten en considerar eventos equivalentes

hasta determinar el evento tal que
Pθ [T1 < r(θ) < T2 ] = 1 − α

(1) (2)
y como consecuencia el intervalo aleatorio (Tn , Tn ) será un intervalo confi-
dencial del 100(1 − α)% para r(θ).
Ejemplo 3.2.3. Determinar un intervalo confidencial para el parámetro θ basa-

do en una muestra aleatoria X1 , X2 , . . . , Xn , de una población con función de
densidad
fX (x, θ) = θe−θx I(0,∞) (x)
La variable aleatoria Yi = 2θXi tiene distribución exponencial con parámetro

1
2 , hecho que se reconoce de la siguiente manera:
y
FYi (y) = P [2θXi ≤ y] = P Xi ≤
y 2θ
= FXi i = 1, 2, . . . , n
2θ
por lo tanto,
y
2θ
FYi (y) = θe−θxi dxi , luego
0
1 − θy
fYi (y) = θ e 2θ
2θ
1 1
= e− 2 y I(0,∞) (y)
2
Con base en este resultado se establece a

n
n
QX = Yi = 2θ Xi
i=1 i=1
como una variable aleatoria pivote, variable que tiene distribución Ji-cuadrado
de parámetro 2n, debido a lo siguiente n
1 1
para t < 12 , MYi (t) = 1 2−t , y por lo tanto, MQX (t) = 2
por ser
(2 ) ( 12 −t)
Y1 , Y2 , . . . , Yn un conjunto de variables aleatorias independientes; esta función
generatriz de momentos es propia de una variable aleatoria con distribución
Ji-cuadrado con 2n grados de libertad.
Como la distribución de QX no depende de θ, ésta constituye una auténtica
variable pivote, y con base en lo anterior, como punto de partida en la construc-
ción del intervalo confidencial, se considera el evento aleatorio {a < QX < b}.
En consecuencia,
⎡ ⎤

n
⎢ a b ⎥
Pθ a < 2θ Xi < b = Pθ ⎢⎣ n <θ< n
⎥=1−α
⎦
i=1 2 Xi 2 Xi
i=1 i=1
Eligiendo los valores a, b, como: a = χ2α , b = χ21− α , el intervalo aleatorio

2 2
⎛ ⎞
⎜ χ2α2 χ21− α ⎟
⎜ , 2 ⎟
⎝ n n ⎠
2 Xi 2 Xi
i=1 i=1
es un intervalo confidencial del 100(1 − α)% para el parámetro θ, porque además

de ser
⎡ ⎤
⎢ χ2α2 χ21− α ⎥
Pθ ⎢
⎣ n < n
2 ⎥=1
⎦
2 Xi 2 Xi
i=1 i=1
el valor de 1 − α no está supeditado a ningún valor de θ.

Sobra decir que la anterior elección de a y b es una escogencia particular, y

por supuesto puede adoptarse otra pareja de valores a, b. La pareja (a, b) puede
ser única cuando se le plantean requerimientos al intervalo, como por ejemplo
que su longitud sea mı́nima, en cuyo caso es menester llevar a cabo unos pasos
adicionales con el fin determinar el intervalo que satisfaga esa condición.
El método de la variable pivote tiene tres condiciones esenciales: la primera,
concerniente a la existencia misma de una variable pivote como tal, la segunda
(1) (2)
a la factibilidad de deducir las estadı́sticas Tn y Tn a partir de la variable
pivote, estadı́sticas que definen en últimas el intervalo confidencial, y la tercera
en lograr encontrar la variable pivote con una distribución, en lo posible cono-
cida, que permita determinar sus percentiles. El siguiente ejemplo trata del
establecimiento de una variable pivote general, para aquellos casos en los cuales
la función de distribución tiene una expresión algebraica explı́cita.
Ejemplo 3.2.4 (Una variable pivote general). Partiendo del hecho del cual
si X es una variable aleatoria con función de distribución FX (x, θ) continua, en-
tonces la variable aleatoria Y = FX (X, θ) tiene distribución Uniforme en el
intervalo (0, 1), es posible construir una variable pivote de la manera siguiente.
Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con función
de distribución FX (x, θ) continua,
Ui = FX (Xi , θ) ∼ U (0, 1), i = 1, 2, . . . , n

Ri = − ln Ui ∼ Exp(1)
porque
FRi (r) = P [Ri ≤ r] = P [− ln Ui ≤ r] = P [ln Ui > −r]

= P [Ui > e−r ] = 1 − P [Ui ≤ e−r ] = 1 − FUi (e−r )
= 1 − e−r
luego Ri ∼ Exp(1). Definiendo

n
n
QX = Ri = − ln FX (Xi , θ) ∼ Gama(n, 1)
i=1 i=1
porque
n

tQX
t Ri
MQX (t) = E e =E e i=1

= E etR1 etR2 . . . etRn

= E etR1 E etR2 . . . E etRn
dado que U1 , U2 , . . . , Un es una muestra aleatoria, R1 , R2 , . . . , Rn son variables

aleatorias independientes e idénticamente distribuidas, luego

n n
1
MQX (t) = MRi (t) =
i=1 i=1
1−t
n
1
= , t<1
1−t
entonces QX ∼ Gama(n, 1). Por lo anterior la variable

n
n
QX = Ri = − ln FX (Xi , θ) ∼ Gama(n, 1)
i=1 i=1
variable que puede utilizarse como una variable pivote para θ, siempre y cuando,
la función de distribución de la población tenga una expresión que permita
aplicar el método.
La deducción de una variable aleatoria pivote general, se basó en el hecho de
que FX (Xi , θ) para i = 1, 2, . . . , n, tiene distribución Uniforme en el intervalo
(0, 1). Para algunos casos particulares, por razones expeditivas, la variable
aleatoria pivote se construye a partir de que igualmente 1−FX (Xi , θ) ∼ U (0, 1).
Una sutil modificación a la variable aleatoria pivote general, regido por el
modelo Gama, permite la construcción de otra variable aleatoria pivote, ésta
bajo la distribución Ji-cuadrado, ası́

n
Q∗X = −2 ln FX (Xi , θ) ∼ χ2 (2n)
i=1
Porque, de la misma manera a lo expresado en el ejemplo 3.2.4, como FX (Xi , θ)

tiene distribución Uniforme en el intervalo (0, 1), −2 ln FX (Xi , θ) ∼ Exp 12 ,

n
con lo cual la variable aleatoria −2 ln FX (Xi , θ) ∼ Gama n, 12 , es decir,
i=1

n
Q∗X = −2 ln FX (Xi , θ) ∼ χ2 (2n)
i=1
Cualquiera de las variables aleatorias pivotes generales puede expresarse de for-

ma alternativa, forma conveniente para algunos casos individuales, gracias a la
propiedad fundamental de la función logaritmo, ası́
n n
QX = − ln FX (Xi , θ) o Q∗X = −2 ln FX (Xi , θ)
i=1 i=1
Ejemplo 3.2.5. El desarrollo del ejemplo 3.2.3, produjo un intervalo confiden-

cial para el parámetro θ, basado en una muestra aleatoria X1 , X2 , . . . , Xn , de
una población con función de densidad
fX (x, θ) = θe−θx I(0,∞) (x)


Como FX (x, θ) = 1 − e−θx I(0,∞) (x), (1 − FX(x, θ)) I(0,∞) (x) = e−θx I(0,∞) (x),
con lo cual e−θXi ∼ U (0, 1) e igualmente − ln e−θXi = θXi tiene distribución
Exponencial con parámetro igual a uno, hecho que permite justificar el motivo
para la adopción de la variable pivote:

n
QX = 2θ Xi ∼ χ2 (2n)
i=1
A partir de esta variable es fácil determinar un intervalo confidencial para θ.

Para coadyuvar en el cumplimiento de la primera condición del método, la
determinación de una variable pivote, la función que desempeña el parámetro
en consideración es algunas veces una vı́a para identificar dicha variable. Tales
son los casos cuando el parámetro es identificado como parámetro de localización
o cuando el parámetro es denominado como parámetro de escala.
Definición 3.2.2. Sea {fX (x, θ)|θ ∈ Θ ⊆ Rk } una familia de densidades. El
componente θj de θ se denomina componente de localización, si y sólo si la
distribución de X − θj o X + θj , según sea el caso, no depende de θj . Cuando
Θ ⊆ R el parámetro θ se denomina parámetro de localización si y sólo si la
distribución de X − θ o X + θ no depende de θ.
Ejemplo 3.2.6. Si
1 (x−θ )2
− 2θ 1
fX (x, θ) = √ √ e 2 , θ = (θ1 , θ2 )
2π θ2
entonces θ1 es el componente de localización. En efecto, (X − θ1 ) ∼ N (0, θ2 ),
distribución que no depende del valor de θ1 .
Definición 3.2.3. Sea {fX (x, θ)|θ ∈ Θ ⊆ Rk } una familia de densidades. El
componente θj de θ se denomina componente de escala, si y sólo si la dis-
X
tribución de o (Xθj ), según sea el caso, no depende de θj . Cuando Θ ⊆ R
θj
el parámetro
θ se denomina parámetro de escala si y sólo si la distribución
X
de o de (Xθ) no depende de θ.
θ
Ejemplo 3.2.7. Si
fX (x, θ) = θe−θx I(0,∞) (x)
el parámetro θ es un parámetro de escala dado que la distribución de Z = θX,
no depende de θ, porque
FZ (z) = P [Z ≤ z] = P [θX ≤ z]
z z
=P X ≤ = FX
θ θ
= 1 − e−z
luego Z ∼ Exp(1), distribución que no depende del valor que asuma el parámetro
θ.
El reconocer a un parámetro como un parámetro de escala o como un

parámetro de localización, es una vı́a para la identificación de una variable
pivote como se habı́a expresado anteriormente. Por consiguiente, si θ es un
parámetro de escala, según sea el caso, Xθi o θXi , es una variable aleatoria
n
Xi n
pivote, y lo es también θ o θ Xi dependiendo de la situación. De ma-
i=1 i=1

n n
nera similar (Xi − θ) o (Xi + θ), según el caso, es una variable pivote para
i=1 i=1
el parámetro de localización θ.

(1) (2)
con función de densidad fX (x, θ), θ ∈ ΘRk , y las estadı́sticas Tn , Tn y Tn ,
estadı́sticas basadas en esta muestra aleatoria.
1. Si θ es un parámetro de localización y si Tn es MLE de θ, Tn − θ o Tn + θ

es una variable aleatoria pivote.
Tn
2. Si θ es un parámetro de escala y si Tn es MLE de θ, o θTn es una
θ
variable aleatoria pivote para θ.
(1)
3. Si θ1 es el componente de localización y Tn un MLE de θ1y además si
(1)
(2) T n − θ 1
θ2 es el componente de escala y Tn un MLE de θ2 entonces (2)
Tn
es una variable aleatoria pivote para θ1 , si ésta no depende de los demás
componentes de θ, o si éstos son conocidos.
Teorema 3.2.2. Bajo un caso regular de estimación, si Tn = t(X1 , X2 , . . . , Xn )

es un estimador insesgado para la imagen de θ bajo una función r cuya
varianza coincide con la cota de Cramer-Rao, basado en una muestra aleatoria
X1 , X2 , . . . , Xn de una población con función de densidad fX (x, θ), entonces la
variable aleatoria

nI(θ)
(Tn − θ)
r (θ)
Las dos secciones siguientes, dedicadas a los intervalos confidenciales bajo

Normalidad, son fundamentalmente una relación de ejemplos del uso del método
de la variable pivote, cuando se ha asumido el modelo Gaussiano como regente
del comportamiento probabilı́stico de la población.Estos intervalos son los que
comúnmente se describen en la mayorı́a de textos de Estadı́stica; su inclusión,
además de ser una serie de ejemplos en la construcción de intervalos confiden-
ciales, responde a que dichos intervalos son de uso corriente.
3.3 Estimación de promedios, bajo Normalidad

3.3.1 Intervalos confidenciales para el promedio de una
población
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución
Normal de valor esperado μ y varianza σ 2 . Se consideran dos casos, dependiendo
de los supuestos que se hagan sobre la varianza poblacional.
Caso 1
Un intervalo confidencial del 100(1 − α)% para μ, de longitud mı́nima, cuando
el valor de la varianza σ 2 es conocido, es

σ σ
X n − z1− α2 √ , X n + z1− α2 √
n n
La variable pivote mencionada en el ejemplo 3.2.1, es la variable pivote que

utiliza este primer caso,
√
n(X n − μ)
QX = ∼ N (0, 1)
σ
El punto de partida del método, como se ha indicado de manera general, es para

este caso
√
n(X n − μ)
Pμ a < < b = (1 − α)
σ
que corresponde gráficamente al esquema que presenta la figura 3.1
fQX (q)
1−α
a b q
Figura 3.1: Esquema del punto de partida del método de la variable pivote para
el caso 1
3.3. ESTIMACIÓN DE PROMEDIOS, BAJO NORMALIDAD 125

√
1 − α = Pμ aσ < n(X n − μ) < bσ

aσ bσ
= Pμ √ < (X n − μ) < √
n n

aσ bσ
= Pμ −X n + √ < μ < −X n + √
n n

bσ aσ
= Pμ X n − √ < μ < X n − √
n n
Se ha determinado entonces un intervalo confidencial para μ,

bσ aσ
Xn − √ , Xn − √
n n
cuya longitud LI es factible hacerla mı́nima.

aσ bσ
LI = X n − √ − Xn − √
n n
σ
= √ (b − a)
n
Cualquier elección de la pareja (a, b) debe satisfacer para sus componentes la

relación fundamental:
b
fQX (q)dq = 1 − α
a
o equivalentemente
FQX (b) − FQX (a) = 1 − α
Acatando esta relación entre a y b,

∂ σ ∂ ∂ σ ∂
LI = √ b− a = √ 1− a
∂b n ∂b ∂b n ∂b
y derivando la relación fundamental en términos de b se deduce que

∂
fQX (b) − fQX (a) a=0
∂b
y por lo tanto
fQX (b) ∂
= a
fQX (a) ∂b
Sustituyendo esta última relación se tiene por consiguiente que

∂ σ fQX (b)
LI = √ 1−
∂b n fQX (a)
De esta manera
∂
LI = 0 cuando fQX (b) = fQX (a)
∂b
o cuando a = b, pero esta última solución no es admisible porque no satisface la
relación fundamental entre a y b. Gráficamente la figura 3.1 muestra la elección
apropiada de a y b para conseguir el intervalo confidencial con la exigencia de
longitud mı́nima.
fQX (q)
1−α
α α
2 2
|
a 0 b q
(−z1− α2 ) (z1− α2 )
Figura 3.2: Elección de los valores a y b que minimizan la longitud del intervalo
confidencial correspondiente al caso 1
Por lo tanto, el intervalo confidencial del 100(1−α)% para μ de longitud mı́nima

bajo el supuesto de que la varianza σ 2 es conocida corresponde a

σ σ
X n − z1− α2 √ , X n + z1− α2 √
n n
Caso 2
Un intervalo confidencial del 100(1 − α)% para μ de longitud mı́nima, cuando
la varianza de la población es desconocida es

Sn Sn
X n − t1− 2 (n − 1)
α √ , X n + t1− 2 (n − 1)
α √
n n
Este intervalo atañe a situaciones más realistas, o por lo menos más corrientes
que a la considerada por el Caso 1. La variable aleatoria pivote para μ que
genera este intervalo confidencial es
√
n(X n − μ)
QX = ∼ t(n − 1)
Sn
tal como fue mencionada en el ejemplo 3.2.2. A partir de ella y siguiendo
prácticamente los mismos pasos y consideraciones del Caso 1, se puede deducir
el citado intervalo confidencial.

Un buen estimador de la probabilidad de éxito π en un modelo de Bernoulli,
también llamada proporción poblacional , es el promedio de la muestra que por
su singularidad se le denomina proporción muestral y es denotado como Pn .
Este estimador derivado con base en el método de máxima verosimilitud goza
de buenas propiedades que lo hacen óptimo. Con base en él es factible construir
un intervalo confidencial para la proporción poblacional utilizando muestras
grandes. El siguiente teorema apresta el fundamento de su construcción.
Teorema 3.3.1. Sea Tn un MLE insesgado para θ, cuya varianza coincide con
la cota de Cramer-Rao y que cumple conjuntamente las condiciones de regulari-
dad con el modelo probabilı́stico elegido, entonces para un tamaño de muestra su-
ficientemente grande, un intervalo confidencial de aproximadamente 100(1−α)%
de confianza para θ es

z1− α2 z1− α2
Tn − , Tn +
nI(Tn ) nI(Tn )
donde I(Tn ) es la información de Fisher evaluada en la estadı́stica Tn .
3.3.2 Estimación de la proporción poblacional

Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución
de Bernoulli de parámetro π, un intervalo confidencial del 100(1 − α)% para π
es
8 8
Pn (1 − Pn ) Pn (1 − Pn )
Pn − z1− α2 , Pn + z1− α2
n n
En efecto, teniendo en cuenta que

1
I(θ) =
θ(1 − θ)
1
I(Tn ) = I(Pn ) =
Pn (1 − Pn )
y utilizando el teorema 3.3.1, el intervalo confidencial para la proporción pobla-

cional es
⎛ ⎞
z1− α2 z1− α2
⎝Pn − . , Pn + . ⎠
1 1
n Pn (1−P n)
n Pn (1−Pn )
es decir
8 8
Pn (1 − Pn ) Pn (1 − Pn )
Pn − z1− α2 , Pn + z1− α2
n n
Como este intervalo requiere para su aplicación que el tamaño de la muestra sea
grande, una recomendación práctica para su utilización, según varios autores,
es confirmar que npn > 5 y n(1 − pn ) > 5.
Un intervalo confidencial también utilizado en laestimación de π, citado en
algunos textos, basado en la misma variable pivote nI(θ)(Pn − θ) es
⎛ 8 8 ⎞
2 z1− α 2 z1− α
z2 α Pn (1−Pn )
2
z1− α Pn (1−Pn )
⎜ Pn + 1− 2 + 4n2
2
Pn + 2 + 4n2
2
⎟
⎜ 2n
− z1− α2
n
, 2n
+ z1− α2
n
⎟
⎝ 2
z1− α
2
z1− α
2
z1− α
2
z1− α ⎠
1+ n2 1+ n
2
1+ n
2
1+ n
2
3.3.3 Intervalo confidencial para la diferencia de prome-

dios basado una muestra pareada
Cuando las variables aleatorias X, Y representan variables medidas en las mis-
mas unidades y que cuantifican el mismo aspecto de la unidad estadı́stica
sólo que en circunstancias distintas y cuando la variable aleatoria Xi − Yi ,
i = 1, 2, . . . , n, representa una variable que tenga sentido, la muestra aleato-
ria (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) se denomina muestra pareada.
Siendo la muestra pareada (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) una muestra aleato-
ria bivariada de una población con distribución Normal bivariada, cuya fun-
ción de densidad fX,Y (x, y) es
2 2
1 x − μ1 y − μ2 x − μ1 y − μ2
K exp − − − 2ρ
2(1 − ρ) σ1 σ2 σ1 σ2
√
siendo la constante K = 1/(2πσ1 σ2 1 − ρ), el intervalo confidencial del
100(1 − α)% de confianza para la diferencia de promedios
μd = μ1 − μ2
con longitud mı́nima es

Sd,n Sd,n
Dn − t1− α2 (n − 1) √ , Dn + t1− α2 (n − 1) √
n n
siendo
• Di = Xi − Yi (D = X − Y )

• D ∼ N μ1 − μ2 , σ12 + σ22 − 2ρσ1 σ2
1 n 1 n
• Sd,n
2
= (Di − Dn )2 , Dn = Di
n − 1 i=1 n i=1
La deducción de este intervalo confidencial corresponde a la de un intervalo
confidencial del 100(1 − α)% de confianza para μd = μ1 − μ2 bajo Normalidad
y asumiendo que la varianza σ12 + σ22 − 2ρσ1 σ2 es desconocida. Por lo tanto
constituye un caso particular de un intervalo ya desarrollado.
3.3.4 Intervalos confidenciales para la diferencia de prome-

dios en poblaciones independientes
Sean X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población Nor-
mal con valor esperado μ1 y varianza σ12 , y Y1 , Y2 , . . . , Ym una muestra aleatoria
de tamaño m de una población Normal con valor esperado μ2 y varianza σ22 .
Las dos poblaciones son estadı́sticamente independientes. Los casos que se con-
sideran a continuación también corresponden a supuestos que se hacen sobre las
varianzas poblacionales.
Caso 1
Un intervalo confidencial del 100(1− α)% para la diferencia de promedios de dos
poblaciones independientes, de longitud mı́nima, cuando σ12 y σ22 son conocidas
se desarrolla con base en los siguientes elementos:

σ12 σ22
X n ∼ N μ1 , , Y m ∼ N μ2 ,
n m

σ2 σ2
(X n − Y m ) ∼ N μ1 − μ2 , 1 + 2
n m
(X n − Y m ) − (μ1 − μ2 )
QX = 8 ∼ N (0, 1)
σ12 σ22
+
n m
A partir de esta variable pivote para (μ1 − μ2 ), puede generarse el intervalo
confidencial correspondiente
8 8
σ12 σ22 σ12 σ22
(X n − Y m ) − z1− α2 + , (X n − Y m ) + z1− α2 +
n m n m
Caso 2
Un intervalo del 100(1 − α)% para la diferencia de promedios poblacionales
correspondientess a dos poblaciones independientes, de longitud mı́nima, bajo
el supuesto de que las varianzas poblacionales son desconocidas pero iguales, se
desarrolla teniendo en cuenta lo siguiente:
Sea σ12 = σ22 = σ 2 , entonces
(X n − Y m ) − (μ1 − μ2 )
8 ∼ N (0, 1)
σ2 σ2
+
n m

n
(Xi − X n )2
(n − 1)S1,n
2
i=1
= ∼ χ2 (n − 1)
σ2 σ2

n
(Yj − Y m )2
(m − 1)S2,m
2
j=1
= ∼ χ2 (m − 1)
σ2 σ2
como las poblaciones son estadı́sticamente independientes,

n n
(Xi − X n )2 + (Yj − Y m )2
i=1 j=1
∼ χ2 (m + n − 2)
σ2
(n − 1)S1,n
2
+ (m − 1)S2,m
2
2
∼ χ2 (m + n − 2)
σ
y a partir de estos resultados, la variable pivote para μ1 − μ2 será por lo tanto

(X n −Y m )−(μ1 −μ2 )
√1 1
σ n +m
QX = . 2 +(m−1)S 2
(n−1)S1,n 2,m
(m+n−2)σ2
(X n − Y m ) − (μ1 − μ2 )
QX = . ∼ t(n + m − 2)
Sp,n+m n1 + m 1
2
(n − 1)S1,n
2
+ (m − 1)S2,m2
donde Sp,n+m = es el estimador de la varianza
(n + m − 2)
común σ 2 . El intervalo confidencial para (μ1 − μ2 ) basado en esta variable
pivote tiene como lı́mite confidencial inferior a
8
1 1
(X n − Y m ) − t1− α2 (n + m − 2)Sp,n+m +
n m
y como lı́mite confidencial superior a
8
1 1
(X n − Y m ) + t1− 2 (n + m − 2)Sp,n+m
α +
n m
Caso 3
Un intervalo confidencial del 100(1 − α)% de confianza para la diferencia de los
promedios de dos poblaciones independientes de longitud mı́nima, cuando las
varianzas poblacionales se asumen distintas y desconocidas, está basado en la
variable pivote
(X n − Y m ) − (μ1 − μ2 )
T = . 2 2
S1,n S2,m
n + m
variable que tiene una distribución similar a la distribución t. Se puede decir

que tiene distribución t aproximada con v grados de libertad.
Welch propone que los grados de libertad v deben ser el entero más cercano
a
s2 s22,m
2
1,n
n + m
v ≈ s2 2 s2 2
1,n 2,m
n m
n−1 + m−1
3.4. ESTIMACIÓN DE VARIANZAS, BAJO NORMALIDAD 131
de esta manera, el intervalo confidencial en consideración es:

⎛ ⎞
2
S1,n 2
S2,m 2
S1,n 2
S2,m
⎝(X n − Y m ) − t1− α (v) + , (X n − Y m ) + t1− α2 (v) + ⎠
2
n m n m
3.4 Estimación de varianzas, bajo Normalidad

3.4.1 Intervalos confidenciales para la varianza de una po-
blación
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución
Normal de valor esperado μ y varianza σ 2 . Dependiendo el supuesto asumido
para μ se consideran dos casos.
Caso 1
Un intervalo confidencial del 100(1 − α)% para σ 2 cuando μ es conocido se basa
en la siguiente variable pivote

n
(Xi − μ)2
i=1
∼ χ2 (n)
σ2
por lo tanto la determinación del intervalo confidencial es como sigue. El punto
de partida
⎡ n ⎤
(Xi − μ)2
⎢ ⎥
Pσ2 ⎢
⎣a <
i=1
2
< b⎥
⎦=1−α
σ
que corresponde gráficamente al esquema que presenta la figura 3.3. Equivalen-

temente
⎡ ⎤
⎢1 σ2 1⎥
Pσ2 ⎢
⎣b < < ⎥=1−α
n
a⎦
(Xi − μ)2
i=1
es decir
⎡
n
n ⎤
(Xi − μ)2 (Xi − μ)2
⎢ i=1 ⎥
Pσ2 ⎢
⎣ < σ2 < i=1 ⎥=1−α
⎦
b a
fQX (q)
1−α
a b q
el caso 1
La longitud del intervalo

⎛n
n ⎞
(Xi − μ)2 (Xi − μ)2
⎜ i=1 ⎟
⎜ , i=1 ⎟
⎝ b a ⎠
manifestado en este punto de la deducción puede minimizarse. La longitud

mencionada,

n
n
(Xi − μ)2 (Xi − μ)2
n
i=1 i=1 1 1
LI = − = (Xi − μ)
2
−
a b i=1
a b
está sujeta a la relación fundamental entre a y b,

b
fQX (q)dq = 1 − α = FQX (b) − FQX (a)
a
Utilizando los recursos del Cálculo diferencial,

n
∂ 1 1 ∂
LI = (Xi − μ)2 − 2 + 2 b
∂a i=1
a b ∂a
de la relación fundamental entre a y b se deduce que

∂
0 = fQX (b) b − fQX (a)
∂a
fQX (a) ∂
= b
fQX (b) ∂a
∂ 1 1 ∂
luego LI = 0 cuando 2 = 2 b, es decir, cuando
∂a a b ∂a
1 1 fQX (a)
= 2
a2 b fQX (b)
Concretamente, el intervalo confidencial tiene longitud mı́nima cuando
a2 fQX (a) = b2 fQX (b)
Establecidos los grados de libertad y en nivel confidencial (1 − α), es posi-

ble identificar los valores de a y b que cumplen con la anterior condición, a
través de métodos numéricos. Algunos autores han desarrollado tablas para
este propósito, pero es fácil elaborar un programa de computador que los cal-
cule. Esta limitación menor se elude en la medida que se cuente con una muestra
grande.
Corrientemente, para muestras grandes se prefiere
a = χ2α2 (n) b = χ21− α2 (n)
como gráficamente lo ilustra la figura 3.4
fQX (q)
α
2
1−α
α
2
a b q
(χ2α ) (χ21− α )
2 2
Figura 3.4: Elección corriente de los valores a y b para el intervalo confidencial

correspondiente al caso 1
En sı́ntesis, el intervalo confidencial del 100(1 − α)% de confianza para σ 2 cuya

longitud no es mı́nima, usado corrientemente es
⎛ n n ⎞
(X − μ) 2
(Xi − μ)2
⎜ i=1 i ⎟
⎜ , i=1 ⎟
⎝ χ2 α (n) 2
χ α (n) ⎠
1− 2 2
Caso 2
Un intervalo confidencial del 100(1 − α)% de confianza para σ 2 cuando μ es
desconocido es
⎛
n
n ⎞
(Xi − X n )2 (Xi − X n )2
⎜ i=1 ⎟
⎜ , i=1 ⎟
⎝ χ2 (n − 1) χ2 (n − 1) ⎠
1− α
2
α
2
Intervalo confidencial que se puede construir a partir de la variable pivote para

σ2 :

n
(Xi − X n )2
i=1
QX = ∼ χ2 (n − 1)
σ2
y cuya deducción es idéntica al Caso 1.
El intervalo de longitud mı́nima, al igual que el anterior, debe ser aquel para el
cual se cumpla que
a2 fQX (a) = b2 fQX (b)
3.4.2 Intervalos confidenciales para el cociente de varian-

zas de dos poblaciones independientes
Sean X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población Nor-
mal con valor esperado μ1 y varianza σ12 , y Y1 , Y2 , . . . , Ym una muestra aleatoria
de tamaño m de una población Normal con valor esperado μ2 y varianza σ22 .
Las dos poblaciones son estadı́sticamente independientes. Los casos que se con-
sideran a continuación también corresponden a supuestos que se hacen sobre las
varianzas poblacionales.
Caso 1
Un intervalo confidencial del 100(1 − α)% de confianza para el cociente de va-
σ2
rianzas σ12 de dos poblaciones independientes, cuando μ1 y μ2 son conocidos es
2
el siguiente
⎛ n n ⎞
(X − μ1 ) /n
2
(Xi − μ1 ) /n
2
⎜ i=1 i ⎟
⎜ f α (m, n),
i=1
f1− α2 (m, n)⎟
⎝ m 2 m ⎠
(Yj − μ2 )2 /m (Yj − μ2 )2 /m
j=1 j=1
En efecto,

n
m
(Xi − μ1 )2 (Yj − μ2 )2
i=1 j=1
∼ χ (n)
2
∼ χ2 (m)
σ12 σ22
con base en estas variables y reiterando la independencia estadı́stica de las

σ12
poblaciones se construye la siguiente variable pivote para σ22

m
m
(Yj − μ2 )2 /(mσ22 ) (Yj − μ2 )2 /m
j=1 σ 2 j=1
QX =
n = 12 ∼ F (m, n)
σ2 n
(Xi − μ1 )2 /(nσ12 ) (Xi − μ1 )2 /n
i=1 i=1
Al partir de
⎡
m ⎤
(Yj − μ2 )2 /m
⎢ σ12 j=1 ⎥
Pσ12 ,σ22 ⎢
⎣a < < b⎥
⎦=1−α
σ22 n
(Xi − μ1 )2 /n
i=1
que corresponde gráficamente al esquema que presenta la figura 3.5.
fQX (q)
1−α
a b q
el caso 1
surge un intervalo confidencial para el cociente de varianzas debido a que

⎡ n n ⎤
(Xi − μ1 )2 /n (X − μ )2
/n
⎢ i=1 σ12
i 1
⎥
Pσ12 ,σ22 ⎢a
⎣ m < 2 < b i=1
m
⎥=1−α
⎦
σ
(Yj − μ2 ) /m
2 2 (Yj − μ2 ) /m
2
j=1 j=1
Para simplificar los pasos posteriores en la construcción del intervalo confidencial

en consideración, se establece la sustitución

n
(Xi − μ1 )2 /n
i=1
T = m
(Yj − μ2 )2 /m
j=1
con ello

σ2
Pσ12 ,σ22 aT < 12 < bT = 1 − α
σ2
y la longitud del intervalo LI es
LI = bT − aT = T (b − a)
longitud que se minimiza como en casos anteriores haciendo uso de los proce-
dimientos respectivos del cálculo diferencial.

∂ ∂
LI = T b−1
∂a ∂a

∂ fQX (a) ∂ fQX (a)
como ya se ha establecido b = , luego LI = T −1 ,
∂a fQX (b) ∂a fQX (b)
∂
entonces LI = 0 cuando fQX (a) = fQX (b).
∂a
Similarmente al caso de los intervalos confidenciales de longitud mı́nima para
las varianzas bajo normalidad, establecidos los grados de libertad y el nivel
confidencial (1 − α), es posible identificar los valores de a y b que cumplen
con la condición anterior, como lo muestra la figura 3.6, por medio de métodos
numéricos. De la misma manera, es fácil elaborar un programa de computador
que los calcule. E igualmente esta limitación se soslaya en la medida que se
cuente con muestras grandes.
fQX (q)
1−α
a b q
Figura 3.6: Elección de los valores a y b que minimizan la longitud del intervalo
confidencial correspondiente al caso 1
Para n y m grandes, corrientemente se utilizan a = f α2 (m, n), b = f1− α2 (m, n),

3.5. EJEMPLOS NUMÉRICOS DE APLICACIÓN 137
σ12
en cuyo caso, el intervalo confidencial para σ22
del 100(1 − α)% de confianza es
⎛ n n ⎞
(Xi − μ1 )2 /n (Xi − μ1 )2 /n
⎜ i=1 ⎟
⎜ f α2 (m, n) , i=1 f α (m, n)⎟
⎝ m m 1− 2 ⎠
(Yj − μ2 )2 /m (Yj − μ2 )2 /m
j=1 j=1
Caso 2
Un intervalo confidencial del 100(1 − α)% de confianzas para el cociente de va-
σ2
rianzas σ12 de dos poblaciones independientes, cuando μ1 y μ2 se desconocen,
2
es
⎛ n n ⎞
(Xi − X n )2 /(n − 1) (Xi − X n )2 /(n − 1)
⎜ i=1 ⎟
⎜ a , i=1 b⎟
⎝ m m ⎠
(Yj − Y m )2 /(m − 1) (Yj − Y m )2 /(m − 1)
j=1 j=1
σ12
intervalo confidencial basado en la variable pivote para σ22
m
2
(Yj − Y m )2 /(m − 1)
σ1 j=1
QX = ∼ F (m − 1, n − 1)
σ22 n
(Xi − X n )2 /(n − 1)
i=1
Para tamaños de muestra suficientemente grandes, un intervalo confidencial para

σ12
σ2
es
2

2 2
S1,n S1,n
2 F α2 (m − 1, n − 1), 2 F1− α2 (m − 1, n − 1)
S2,m S2,m
3.5 Ejemplos numéricos de aplicación

Ejemplo 3.5.1. El servicio de asesorı́a estadı́stica que la Universidad Nacional
presta a través del Departamento, realizó en 1997 un estudio de opinión sobre
la Justicia en Colombia y entre muchos de los interrogantes que el Consejo Su-
perior de la Judicatura querı́a dilucidar con esta investigación era la percepción
de los abogados, que se desempeñan en el área penal, frente al nuevo sistema
acusatorio, fruto de la creación de la Fiscalı́a. Para ello diseñó una muestra en
varias etapas y concretamente encontró que 315 abogados de los 509 entrevis-
tados consideraron que el nuevo sistema acusatorio no es un instrumento en la
lucha contra la impunidad. Con base en estos resultados se precisa estimar con
una confianza del 95% el nivel de asentimiento del nuevo sistema acusatorio por
parte de los abogados penalistas, en ese momento.
Siendo p509 = 315/509 = 0.61886 la proporción de interés en la muestra, y con la
adopción de z0.975 = 1.96 y debido a que npn = 315 > 5 y n(1 − pn ) = 194 > 5,
entonces se puede estimar con una confianza del 95% que entre el 57.66% y el
66.1% de los abogados que se desempeñan en asuntos del Derecho Penal, consi-
deran que el nuevo sistema acusatorio no es un instrumento contra la impunidad
puesto que la estimación por intervalo de la proporción en mención es
8 8
pn (1 − pn ) pn (1 − pn )
pn − z1− α2 , pn + z1− α2
n n
8 8
0.6188 ∗ 0.3811 0.6188 ∗ 0.3811
= 0.6188 − 1.96 , 0.6188 + 1.96
509 509
= (0.5766, 0.6610)
Ejemplo 3.5.2. Antes de implementar los gráficos de control, para el moni-

toreo de un proceso industrial, es preciso desarrollar varias actividades, entre
otras el llamado precontrol. El modelo Normal es una herramienta muy uti-
lizada en esta etapa para estimar el promedio del proceso e igualmente para
determinar sus cambios.
Para controlar estadı́sticamente el proceso de fabricación de un tipo de fibra para
la elaboración de alfombras, se analiza la información relativa a la resistencia a
la tensión de trozos de fibra, en kilogramos, elegidos para la respectiva prueba
en el laboratorio. En diez periodos de inspección con cinco trozos cada uno,
se acopió la siguiente información con el propósito de estimar el promedio de
resistencia de la fibra.
Perı́odo Resistencias observadas

1 78.4 79.9 78.9 78.3 77.5
2 75.9 75.1 75.1 79.9 77.1
3 78.9 78.4 78.1 78.3 77.8
4 75.9 79.5 79.1 77.9 77.5
5 78.1 79.9 77.9 77.8 79.9
6 77.1 79.7 76.9 78.4 79
7 77.9 79.5 78.9 78.5 78.9
8 78.9 79.8 78.6 78.2 77.6
9 78.5 79.5 79.9 78.4 77.7
10 78.6 79.9 78.6 77.4 77.5
Para cumplir con la estimación mencionada, se consideran las 50 observaciones

como una sola muestra particular de tamaño 50, que presenta un promedio de
78.3 Kg y una desviación estándar de 1.184078 Kg, con lo cual se estima con
una confianza del 95% que la resistencia media a la tensión está entre 77.96 Kg
y 78.63 Kg puesto que la estimación por intervalo del 95% de confianza para el
3.6. TAMAÑO DE LA MUESTRA SIMPLE BAJO NORMALIDAD 139
promedio de resistencia, desconocida la varianza poblacional, es

sn sn
xn − t1− α2 (n − 1) √ , xn + t1− α2 (n − 1) √
n n

1.184078 1.184078
= 78.3 − 2.009574 √ , 78.3 + 2.009574 √
50 50
= (77.9634, 78.6365)
3.6 Tamaño de la muestra simple bajo Norma-

lidad
Esta sección es una presentación sucinta, dedicada al tamaño la de muestra.
Este tema primordial y complejo es un tema extenso que abarca varios aspec-
tos incluyendo el relativo a la determinación de la numerosidad de la muestra
propiamente dicha. Si el lector continúa trabajando sobre conceptos del área de
la Estadı́stica, tendrá la oportunidad de profundizar sobre este tema tan fun-
damental tanto en el diseño como en la ejecución de investigaciones auxiliadas
por la Estadı́stica. Entonces esta sección se trata de un modesto anticipo sin la
menor pretensión de lo que significa la determinación del tamaño muestral.
Para estimar el parámetro μ, promedio poblacional, se puede deducir el
tamaño de una muestra a partir de la expresión de uno de sus intervalos confi-
denciales.

σ σ
P X n − z1− 2 α √ < μ < X n + z1− 2 α √ =1−α
n n

σ σ
P −z1− α2 √ < μ − X n < z1− α2 √ =1−α
n n

σ
P |X n − μ| < z1− α2 √ =1−α
n

P |X n − μ| < e = 1 − α
Fijando de antemano como medida de precisión de la estimación de μ el valor
z1− α2 √σn = e, el tamaño de muestra puede ser derivado inmediatamente como
z1− α σ 2
2
n=
e
En esta expresión corriente del tamaño de una muestra simple, e se denomina
error máximo admisible en la estimación de μ, o margen de error, y con-
stituye una cota para la diferencia aleatoria |X n − μ|. Con la denominación de
confianza se hace referencia al valor 1 − α, y el valor de σ usualmente se estima
por medio de una muestra llamada muestra piloto, en caso de no asumirlo
conocido. Para estimar la diferencia de promedios entre dos poblaciones inde-
pendientes, los tamaños de muestra pueden establecerse como
z1− α 2
n=m= 2
(σ12 + σ22 )
e
En el ejercicio 11 se deduce la expresión anterior.
n
2
1 z1 −α/2
4 e
1
2 1 π
Figura 3.7: Tamaño holgado de la muestra para estimar la proporción pobla-

cional
Para estimar la proporción poblacional π, el tamaño de muestra requerido es

z1− α 2
n= 2
π(1 − π)
e
cuyo tamaño más holgado puede adoptarse como
z1− α 2 1
2
n=
e 4
pues al ser n una función de π, además de otras variables,
z1− α
n = g(π) = 2
π(1 − π)
e
su máximo puede determinarse fácilmente en los siguientes términos.
z1− α
g (π) = 2
(1 − 2π)
e
z1− α
g (π) = −2 2
<0
e
1
g (π) = 0 cuando π =
2
como lo destaca la figura 3.7
3.7 Estimación Bayesiana por intervalo

El numeral 2.1.4 de la página 65 se dedicó a la presentación de algunas ideas
globales de la estimación Bayesiana. Precisamente se definió como función de
densidad a posteriori de Θ a la función de densidad condicional
fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn )
3.7. ESTIMACIÓN BAYESIANA POR INTERVALO 141
y ésta permite deducir directamente un intervalo para estimar el parámetro θ.

con función de densidad fX (x|θ), gΘ (θ) la función de densidad a priori de Θ, y
fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn ) la función de densidad a posteriori de Θ. Sean
θ0 y θ1 dos valores de la variable aleatoria Θ tales que
θ1
P [θ0 < Θ < θ1 ] = fΘ|X1 ,X2 ,... ,Xn (θ|x1 , x2 , . . . , xn )dθ = 1 − α
θ0
entonces el intervalo (θ0 , θ1 ) se denomina intervalo Bayesiano para θ de pro-

babilidad 1 − α.
El intervalo (θ0 , θ1 ) se adopta como una estimación de θ con probabilidad
asociada 1 − α, cuya interpretación no es la misma que la de una estimación
por intervalo del 100(1 − α)% para el mismo parámetro. Es válido entonces
decir, dentro del enfoque Bayesiano, que la probabilidad de que el parámetro se
encuentre entre los valores θ0 y θ1 es 1 − α, más serı́a una interpretación errónea
si se tratase de una estimación por intervalo.
con distribución Normal de valor esperado θ y varianza σ 2 asumida como una
constante conocida, y si la distribución a priori de Θ se establece como Nor-
mal de valor esperado μp y varianza σp2 , el ejemplo 2.1.16 de la página 68,
menciona que la distribución a posteriori de Θ es Normal de valor esperado
nσp2 xn + μp σ 2 2
σp2 σ 2
μ∗ = y varianza σ ∗ = . Entonces
nσp2 + σ 2 nσp2 + σ 2

θ0 − μ∗ θ1 − μ∗
P [θ0 < Θ < θ1 ] = P <Z< =1−α
σ∗ σ∗
El intervalo Bayesiano (θ0 , θ1 ) tiene longitud mı́nima escogiendo

θ0 − μ∗ θ1 − μ∗
= −z1− α2 y = z1− α2
σ∗ σ∗
de esta forma el intervalo Bayesiano de probabilidad 1 − α bajo las condiciones
establecidas es
⎛ ⎞
nσp2 xn + μp σ 2 σp σz1− α2 nσp2 xn + μp σ 2 σp σz1− α2
⎝ − 1 , + 1 ⎠
nσp2 + σ 2 nσ 2 + σ 2 2 nσp2 + σ 2 nσ 2 + σ 2 2
p p
Tanto la estimación como los intervalos Bayesianos tratados en este tex-

to son menciones tangenciales de unos conceptos que pertenecen a un cuerpo
conceptual propio dentro de la Estadı́stica: el Análisis Bayesiano o Estadı́stica
Bayesiana. El lector puede contar con una extensa bibliografı́a en el tema si es
de su interés conocer a profundidad la filosofı́a y los métodos de este enfoque
estadı́stico.

(1) (2)
Demostración (Teorema 3.1.1). Como Tn , Tn es un intervalo confi-

(1) (2)
dencial para θ es porque en particular Pθ Tn < Tn = 1. Si r(θ) es una fun-

(1) (2)
ción estrictamente decreciente, entonces Pθ r Tn > r Tn = 1 y el even-

(1) (2) (1) (2)
to r Tn > r(θ) > r Tn es equivalente al evento Tn < θ < Tn ,
por lo tanto

1 − α = Pθ Tn(1) < θ < Tn(2) = Pθ r Tn(2) < r(θ) < r Tn(1)

(2) (1)
como 1−α no depende de θ y Pθ r Tn < r Tn = 1, el intevalo aleatorio

(2) (1)
r Tn , r Tn es un intervalo confidencial del 100(1 − α)% de confianza
para la imagen de θ bajo la función r.
(1) (2)
De manera similar, el intervalo aleatorio r Tn , r Tn es un intervalo
confidencial del 100(1 − α)% para la imágen de θ bajo la función r, cuando ésta
es una función estrictamente creciente.
Demostración (Teorema 3.2.2). Los argumentos de la demostración de este

teorema se basan en ideas circundantes a la información de Fisher y en el teo-
rema del lı́mite central.
El elemento original consiste en considerar la variable aleatoria
∂
H(X, θ) = [ln fX (X, θ)]
∂θ
Esta variable tiene valor esperado cero y varianza I(θ).

∞
∂
E[H(X, θ)] = [ln fX (x, θ)] fX (x, θ) dx
−∞ ∂θ
∞ ∂ fX (x, θ)
= ∂θ fX (x, θ) dx
−∞ fX (x, θ)
∞
∂
= fX (x, θ) dx
−∞ ∂θ
∞
∂ ∂
= fX (x, θ) dx = (1) = 0
∂θ −∞ ∂θ

V [H(X, θ) = E H 2 (X, θ) = I(θ)]
Creada de esta forma la variable aleatoria H(X, θ), la sucesión de variables

aleatorias, H(X1 , θ), H(X2 , θ), . . . , H(Xn , θ) constituye una muestra aleatoria
de tal manera que aplicando la versión de Lindeberg-Feller del teorema del lı́mite
central, teorema 1.4.10, página 16,

n n ∂
H(Xi , θ) [ln fX (Xi , θ)]
i=1 i=1 ∂θ d
= −
→ Z ∼ N (0, 1)
nI(θ) nI(θ)
Como se afirma que Tn es un estimador insesgado para la imágen de θ bajo la
función r, cuya varianza es la cota de Cramer-Rao, es porque existe una función
K(θ, n) tal que
n
∂ n
∂
ln fX (Xi , θ) = ln fX (Xi , θ) = K(θ, n) [Tn − r(θ)]
∂θ i=1 i=1
∂θ
como lo asegura el corolario 2.2.10.1, página 87, esto es

n
H(Xi , θ) = K(θ, n) [Tn − r(θ)]
i=1
por lo tanto
1 n
Tn = r(θ) + H(Xi , θ)
K(θ, n) i=1
expresión de la cual se puede afirmar que

nI(θ)
V [Tn ] =
K 2 (θ, n)
entonces

n
H(Xi , θ)
i=1 K(θ, n) [Tn − r(θ)] Tn − r(θ)
= =
nI(θ) 2
K (θ, n)V [Tn ] V [Tn ]
Como Tn es insesgado pra la imagen de θ bajo la función r, cuya varianza es
la cota de Cramer-Rao,
(r (θ))2
V [Tn ] =
nI(θ)
lo cual finalmente permite concluir que

Tn − r(θ) nI(θ) d
. 2 = [Tn − r(θ)] −
→ Z ∼ N (0, 1)
(r (θ)) r (θ)
nI(θ)
Demostración (Teorema 3.3.1). El hecho de que Tn sea MLE e insesgado

para θ, cuya varianza corresponde a la cota de Cramer-Rao, permite garantizar,
según el teorema 3.2.2 que

QX = nI(θ)(Tn − θ)
converge en distribución a una variable aleatoria con distribución normal estándar;

luego para un tamaño de muestra suficientemente grande, QX se puede asumir
como una variable aleatoria pivote para θ. Ası́ entonces,

Pθ a < nI(θ)(Tn − θ) < b = δn ≈ 1 − α
La probabilidad δn es cercana a 1 − α, porque en la práctica n es finito, proba-

bilidad que no depende de θ y como la información de Fisher es una cantidad
positiva

a b
δn = Pθ < Tn − θ <
nI(θ) nI(θ)

b a
= Pθ − < θ − Tn < −
nI(θ) nI(θ)

b a
= Pθ Tn − < θ < Tn −
nI(θ) nI(θ)
la elección de a y b puede ser hasta cierto punto arbitraria, sujeta a la relación
entre a y b para garantizar el nivel de confianza δn , pero pueden utilizarse los
valores que generan el intervalo de longitud mı́nima como en los casos 1 y 2
tratados en el numeral 3.3.1. En concreto, una estimación aproximadamente
del 100(1 − α)% de confianza para θ puede realizarse mediante el intervalo con-
fidencial,

z1− α2 z1− α2
Tn − , Tn +
nI(θ) nI(θ)

1. Sea X1,n , X2,n , . . . , Xn,n una muestra aleatoria ordenada de una población
con distribución Uniforme en el intervalo (0, θ), y sean las estadı́sticas
(1) (2) 1 n
Tn = Xn,n , Tn = c Xn,n , con c una constante. Muestre que el
(1) (2)
intervalo Tn , Tn , es un intervalo confidencial para θ, determine el
valor esperado de la longitud del intervalo y su nivel confidencial.
una población con función de densidad
fX (x, θ) = e−(x−θ) I(θ,∞) (x)

¿Es el intervalo aleatorio X1,n + n1 ln α, X1,n un intervalo confidencial
del 100(1 − α)% de confianza para θ?.
3. Explore la forma de estimar por intervalo el parámetro θ, a partir de una
muestra alatoria X1 , X2 , . . . , Xn , de una población con distribución de
Poisson de parámetro θ.
4. Asumiendo que θ1 es una cantidad conocida, proponga una forma de es-

timar por intervalo el parámetro θ2 , a partir de una muestra aleatoria
X1 , X2 , . . . , Xn , de una población con función de densidad
θ2θ1 θ1 −1 − θx
fX (x, θ) = x e 2 I(0,∞) (x)
Γ(θ1 )
5. Explore la forma de estimar por intervalo el parámetro θ, y θ2 a partir de

una muestra aleatoria X1 , X2 , . . . , Xn , de una población con distribución
Normal de valor esperado θ y varianza kθ2 , conocido el valor de k.
6. Considere el intervalo confidencial de longitud mı́nima para el valor espe-
rado, desconocida la varianza , bajo el modelo Gaussiano. ¿Cómo varı́a el
valor esperado de la longitud del intervalo cuando el tamaño de muestra se
incrementa?. Y además, ¿Cuál es la relación entre el citado valor esperado
y el nivel confidencial?.
7. Consiga una forma de estimar por intervalo el coeficiente de variación σ/μ
a partir de una muestra aleatoria X1 , X2 , . . . , Xn , de una población con
distribución Gaussiana de valor esperado μ y varianza σ 2 .
8. Suponiendo que σ12 /σ22 = c, c una constante conocida, determine un inter-
valo confidencial para la diferencia μ1 −μ2 con base en dos muestras aleato-
rias independientes de sus respectivas poblaciones cuyas distribuciones son
asumidas como Gaussianas de valores esperados μ1 , μ2 y varianzas σ12 , σ22 ,
respectivamente.
9. Asumiendo θ1 como una constante conocida, explore la forma de estimar
por medio de un intervalo confidencial el parámetro θ2 , basado en una
muestra aleatoria X1 , X2 , . . . , Xn , de una población con distribución de
Pareto, es decir con función de densidad
θ2 θ1θ2
fX (x, θ) = I(θ ,∞) (x)
xθ2 +1 1
10. ¿Cuál de los dos intervalos confidenciales para la estimación de la propor-
ción poblacional, presentados en el numeral 3.3.2, prefiere utilizar?.
11. Deduzca la expresión para el tamaño de la muestra simple requerido en la
estimación de la diferencia de promedios en poblaciones independientes,
bajo Normalidad.
12. En número de disconformidades de una baldosa de cerámica se modela
para efectos de control de calidad, como una variable aleatoria con dis-
tribución de Poisson. La variabilidad propia del proceso de manufactura,
sugiere reconocer al parámetro como una variable aleatoria, para la cual se
propone un modelo Exponencial de parámetro igual a uno. Determine un
intervalo Bayesiano para estimar la tasa de disconformidades por unidad,
con base en una muestra aleatoria de tamaño n.
13. Deduzca un intervalo confidencial del 100(1 − α)% de confianza para θ,

basado en una muestra aleatoria censurada de una población con función
de densidad tal como la presenta el ejemplo 2.1.8, de la página 59
14. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con fun-
ción de 1densidad
Uniforme en el intervalo (0, θ). Fijo el valor k, ¿es
Xn,n , kn Xn,n un intervalo confidencial para el parámetro θ?. Si dicho
intervalo aleatorio es un intervalo confidencial, determine su correspon-
diente coeficiente confidencial.
ción Beta con θ1 = 3 y θ2 = θ. Determine un intervalo confidencial del
100(1 − α)% de confianza para θ.
16. Sea X1 , X2 , . . . , Xn , una muestra aleatoria
de una población con función
de densidad Uniforme en el intervalo θ − 12 , θ + 12 . Determine un inter-
valo confidencial del 100(1 − α)% de confianza para θ.
de densidad
fX (x, θ) = θ exp(−θx)I(0,∞) (x)
Determine un intervalo confidencial del 100(1 − α)% de confianza para
P [X > 1].
18. Teniendo en cuenta el ejercicio anterior, determine un intervalo confiden-
cial del 100(1 − α)% de confianza para θ, basado únicamente en el mı́nimo
de la muestra.
de densidad
2x
fX (x, θ) = 2 I(0,θ) (x), con θ > 0
θ
Determine un intervalo confidencial del 100(1 − α)% de confianza para θ.
de densidad
1 1
fX (x, θ) = x θ −1 I(0,1) (x), con θ > 0
θ
Determine un intervalo confidencial del 100(1 − α)% de confianza para θ.
de densidad
fX (x, θ) = θxθ−1 I(0,1) (x), con θ > 0
Determine un intervalo Bayesiano para θ, si la distribución a priori de Θ
es Gama con los componentes del parámetro especificados.
Capı́tulo 4
JUZGAMIENTO DE
HIPÓTESIS
A este capı́tulo tradicionalmente se le ha llamado prueba de hipótesis, contraste

de hipótesis, docimasia de hipótesis e incluso cotejo de hipótesis, como resulta-
do de las traducciones del vocablo inglés test, o testing, que con el propósito de
conservar su sentido original han sugerido estas expresiones mencionadas. Sin
embargo, al volver a examinar las acepciones de cada uno de los términos utiliza-
dos se encuentra que no ofrecen la precisión semántica necesaria para enmarcar
un sistema de conceptos substanciales dentro de la estructura conceptual de la
Inferencia estadı́stica.
Prueba de hipótesis tal vez la forma más cotidiana para referirse al contenido
del capı́tulo, utiliza un término que dentro de sus muchas acepciones, presenta
algunas asociadas con el tema. “Prueba: Razón, argumento, instrumento u
otro medio con que se pretende mostrar y hacer patente la verdad o falsedad de
algo. Ensayo o experimento que se hace de algo para saber cómo resultará en su
forma definitiva. Indicio, señal o muestra que se da de algo ”1 . Pero quizá uno
de sus sinónimos que mejor resume su sentido es cateo. Pero decidir a favor o
en contra de una aseveración que traduce una explicación apriorı́stica de algún
fenómeno particular de la realidad, aseveración cuya decisión se toma a la luz
de la información de la muestra, no puede entenderse como un cateo.
Por otra parte, contraste de hipótesis tampoco es una acertada elección para
la denominación del tema porque además de utilizar el vocablo contraste, muy
propio en el planteamiento de hipótesis en los Modelos Lineales o en el Diseño
Experimental entre otros, término que podrı́a introducir confusión, ninguna de
sus acepciones ligadas al tema es suficiente para describir globalmente esta área
del conocimiento estadı́stico. En efecto “Contrastar: Ensayar o comprobar y
fijar la ley, peso y valor de las monedas o de los objetos . . . Comprobar la exacti-
tud o autenticidad de algo. Mostrar notable diferencia, o condiciones opuestas,
1 Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda edi-
ción.2001
147
148 CAPÍTULO 4. JUZGAMIENTO DE HIPÓTESIS
con otra, cuando se comparan ambas ”(op. cit.), es un término más cercano a
estimar o a destacar que a la toma de decisiones a partir de la información de
la muestra.
Docimasia como “Arte de ensayar los minerales para determinar la natu-
raleza y proporción de los metales que contienen ”2 , y de otras de sus acepciones,
presenta más un sentido de análisis que un sentido de opción por algo a la luz
de los hechos. Además su origen etimológico de ensayar o probar, la colocarı́a
como término sinónimo de prueba, y no habrı́an razones para adoptarla. Cotejo
como acción y efecto de cotejar, siendo cotejar “Confrontar algo con otra u otras
cosas; compararlas teniéndolas a la vista ”(op. cit), consistirı́a igualmente en
un simple sinómino de contraste, que no introduce elementos adicionales para
admitirlo como palabra nuclear.
Como juzgamiento es acción y efecto de juzgar, entendiendo que juzgar sig-
nifica “Deliberar acerca de la culpabilidad de alguien o de la razón que le asiste
en un asunto y sentenciar lo procedente. Decidir en favor o en contra y espe-
cialmente pronunciar como juez una sentencia acerca de alguna cuestión o sobre
alguno ”(op. cit), además de tomarse como directriz a una de sus acepciones
que condensa la finalidad de un procedimiento de toma de una decisión a fa-
vor o en contra de algo, juzgamiento por su parte es un vocablo que permite
construir una analogı́a magistral entre un juicio que se realiza ante un juez y
los elementos, pasos y conceptos en el acopio de información, su procesamiento
y la decisión que se toma ante una afirmación relativa al fenómeno en estu-
dio, que la Inferencia estadı́stica abstrae y estructura como una de sus partes
fundamentales.
En consecuencia este texto titula al presente capı́tulo como Juzgamiento de
Hipótesis, porque como se comprenderá en la medida que se vaya desarrollando,
se trata realmente de algo análogo a un juicio, particularmente a un juicio penal.
Para iniciar la exposición de los conceptos propios del juzgamiento de hipótesis,
se parte del concepto de Hipótesis Estadı́stica.
4.1 Elementos básicos

Definición 4.1.1. Una hipótesis estadı́stica es una aseveración o conjetura
acerca de la distribución de una población, afirmación que generalmente está
asociada a un subconjunto del espacio del parámetro Θ correspondiente al modelo
probabilı́stico que representa la citada población. Como notación, la aseveración
se enuncia después de la abreviatura H0 o H1 .
El juzgamiento de una hipótesis estadı́stica es un proceso que culmina
con una decisión de rechazar o de no rechazar una hipótesis con base en la
información de una muestra aleatoria X1 , X2 , . . . , Xn de una población para
la cual se ha asumido un modelo probabilı́stico cuya función de densidad es
fX (x, θ).
2 Gran Diccionario General de la Lengua Española. VOX. Segunda Edición. 1991

4.1. ELEMENTOS BÁSICOS 149
Definición 4.1.2. La hipótesis sobre la cual se estructura el proceso de juzga-

miento se denomina hipótesis nula, se denota H0 y se enuncia como
H0 : θ ∈ Θ 0 , Θ0 ⊂ Θ
Definición 4.1.3. La hipótesis elegida como contraste a la hipótesis nula se

denomina hipótesis alterna, se denota H1 y se enuncia como
H1 : θ ∈ Θ1 , Θ1 ⊂ Θ, Θ1 ∩ Θ0 = ∅
Definición 4.1.4. La diada de hipótesis nula y alterna constituye el sistema

de hipótesis del proceso de juzgamiento de la hipótesis nula, sistema que se
enuncia como
H0 : θ ∈ Θ0
f rente a
H1 : θ ∈ Θ1

Definición 4.1.5. Una hipótesis H : θ ∈ Θ , Θ ⊂ Θ se denomina hipótesis
simple si con dicha aseveración queda plenamente especificada la función de
densidad fX (x, θ). En caso contrario se denomina hipótesis compuesta.
Ejemplo 4.1.1. El diseño de un producto establece un envase de 20 onzas
fluidas; en consecuencia el proceso de llenado debe adecuarse a ese requerimiento
y deben planearse y ejecutarse los controles periódicos para poder tomar las
decisiones a que haya lugar sobre los ajustes a las máquinas y al proceso en
general una vez se obtenga y se procese la información pertinente durante los
controles.
Para respaldar cualquier decisión con el apoyo de procedimientos estadı́sticos,
una manera consistirı́a en idealizar el contenido del producto en el envase como
una variable aleatoria y adoptar un modelo probabilı́stico como regente de su
comportamiento. En particular si se elige el modelo Gaussiano como el más
idóneo para representar el contenido mencionado, con valor esperado θ y bajo
el supuesto de varianza conocida, la declaración H : θ = 20 indicativa de que
el proceso de llenado está centrado de acuerdo con el requerimiento del diseño,
corresponde a una hipótesis simple, puesto que conocida la varianza y admitido
θ = 20 como el valor esperado de la variable que representa el citado contenido,
queda plenamente determinada la distribución de dicha variable.
Por su parte la afirmación de que el proceso de llenado tiende a rebosar el envase,
traducida como H : θ > 20, corresponde a una hipótesis compuesta, porque
se trata de una afirmación que aunque lleva tácita la alusión a una variable
con distribución Gaussiana de varianza conocida, no identifica una distribución
singular.
Continuando dentro de este contexto industrial, si en el instante de cierre del
envase posterior al llenado, mediante la utilización de una fotocélula, se detectan
envases con contenido inferior a 18.5 fl oz, éstos son trasladados a un proceso
de reciclaje prácticamente sin costo alguno, mientras que los recipientes que
contienen 18.5 fl oz o más, no activan señal alguna de la fotocélula, siendo la

preocupación central por aquellos envases que contienen más de 20 fl oz pues
proporcionalmente al contenido adicional generan costos considerables. Para el
seguimiento del proceso, en cada perı́odo de control se acopia la información
correspondiente al contenido de 49 envases elegidos en forma aleatoria dentro
del lote de producción, como parte del aprestamiento para el control estadı́stico
de calidad del proceso, con la finalidad de decidir si deben realizarse ajustes a
las máquinas o al proceso en general, o por el contrario, para dar parte de la no
presencia de factores perturbadores del proceso.
El sistema de hipótesis que origina el procedimiento que permite la toma de
decisiones dentro de este proceso industrial particular, puede formularse ası́
H0 : θ = 20
f rente a
H1 : θ > 20
sistema entendido como el juzgamiento de la aseveración de que el proceso
está controlado o equivalentemente que está centrado en 20 fl oz, declaración
concretada en la hipótesis nula H0 y enfrentada a una manifestación de una
situación alternativa relacionada con la inconveniencia de producir unidades
con contenido superior al establecido por el diseño del producto, representada
por la hipótesis alterna H1 .
Definición 4.1.6. El proceso de juzgamiento de la hipótesis nula conlleva un
procedimiento, regla o norma que permite tomar la decisión a que haya lugar,
denominado test. Como notación, el test se enuncia después de la letra τ .
Definición 4.1.7. El test utilizado dentro del proceso de juzgamiento de la
hipótesis nula H0 , tiene vinculado un subconjunto del espacio de las observa-
ciones X. Este subconjunto denotado por Cτ,n está determinado por su respec-
tivo test ası́
τ : “Rechazar la hipótesis H0 si (x1 , x2 , . . . , xn ) ∈ Cτ,n ”
El conjunto Cτ,n se denomina región crı́tica o región de rechazo del test
para juzgar a H0 y el test ası́ definido se denomina test no aleatorizado.
El conjunto X − Cτ,n recibe el nombre de región de aceptación del test para
juzgar a H0 .
Definición 4.1.8. Un test τ recibe la denominación de test aleatorizado para
el juzgamiento de la hipótesis nula H0 , si la función ψτ calculada en los valores
observados de una muestra aleatoria 0 < ψτ (x1 , x2 , . . . , xn ) < 1 determina la
probabilidad de éxito de una variable aleatoria Y con distribución de Bernoulli,
cuyos valores particulares se generan por un procedimiento aleatorio adicional,
y está definido como
τ : “Rechazar H0 si y = 1”
A la función ψτ se le denomina función crı́tica del test aleatorizado τ .
Como los tests aleatorizados no son del interés de este texto, debe entenderse
que dentro del contenido del presente capı́tulo el término test hace mención
únicamente a los tests no aleatorizados.
Ejemplo 4.1.2. Un test propuesto para el juzgamiento de H0 dentro del sis-
tema de hipótesis del ejemplo 4.1.1 es
τ : “Rechazar H0 si x49 > 20.27, en caso contrario no rechazarla”
norma que permite optar por la exploración y remoción de causas extrañas al

proceso responsables de la no adecuación a los requerimientos, si el contenido
promedio en una muestra aleatoria particular de 49 envases supera las 20.27
fl oz. Por otra parte permite no reportar novedad alguna en el desarrollo del
proceso, cuando el señalado promedio es a lo sumo 20.27 fl oz. La región crı́tica
asociada a este test es por consiguiente
Cτ,49 = {(x1 , x2 , . . . , x49 )|x49 > 20.27}
Cualquier decisión que se tome en el juzgamiento de una hipótesis estadı́stica,

lleva consigo el riesgo de incurrir en una opción equivocada. Como en la analogı́a
acogida, el juzgamiento de una persona en un tribunal o juzgado, es factible con-
cluir el correspondiente proceso judicial con una decisión ajustada a las normas
procesales y a la naturaleza de las pruebas, pero en realidad no acertada en
cuanto a la verdad de los hechos, verdad que no siempre el juez puede conocer
enteramente; por ello repetidamente se mencionan expresiones relativas a los
inocentes que se encuentran purgando penas, o a los culpables que gozan de
libertad plena. De manera similar a los errores en los cuales se puede incurrir
en el juzgamiento de una persona, análogamente en el juzgamiento de hipótesis
estadı́sticas se corren riesgos semejantes.
Ası́ como un proceso judicial termina en forma normal, con la decisión de un
juez o tribunal, el proceso de juzgamiento de una hipótesis nula culmina con una
decisión: ya sea la de rechazar la hipótesis nula cuando hay evidencia estadı́stica
para hacerlo o al no contar con dicha evidencia para rechazar la hipótesis, la de
optar por no rechazarla; en este sentido, cualquiera de las decisiones puede oca-
sionar una equivocación o error. Uno de ellos consiste en rechazar una hipótesis
nula cuando la hipótesis es verdadera, el otro en no rechazar una hipótesis nula
en el caso de ser falsa.
Cuando se traducen apartes de las explicaciones previas o provisionales de
un fenómeno a afirmaciones de carácter estadı́stico, o sea cuando se formali-
zan hipótesis estadı́sticas, éstas heredan la veracidad o falsedad acorde con la
explicación apriorı́stica del fenómeno. Esa veracidad o falsedad inmanentes a
la incertidumbre misma que motiva la realización de la investigación, no son
directamente el objetivo de su juzgamiento; el objetivo inmediato es la toma
de una decisión frente a la afirmación que determina la hipótesis a la luz de
la información contenida en los datos acopiados. En este sentido es pertinente
precisar que cuando se utilizan expresiones como: bajo la hipótesis ..., siendo
cierta la hipótesis..., debe entenderse que la afirmación de la frase precedente a
alguna de las expresiones mencionadas, o a otra similar, está condicionada a la

veracidad de la hipótesis en consideración, o al supuesto de que la afirmación
fuese verdadera.
Como los errores en los cuales se puede incurrir cuando se toma la decisión
están dependiendo de la real o supuesta veracidad de la hipótesis, la concisión y
denominación de cada uno de estos errores se indica en la definición siguiente.
Definición 4.1.9. Dentro del proceso de juzgamiento de la hipótesis H0 se de-
nomina error del tipo I a la decisión de rechazar H0 , siendo verdadera la
hipótesis; asimismo se designa como error del tipo II a la decisión de no
rechazar la hipótesis nula siendo ella falsa.
En resúmen,
DECISIÓN
H0 Rechazar H0 No rechazar H0
Cierta Error del tipo I Correcta
Falsa Correcta Error del tipo II

con función de densidad fX (x, θ) y sea además τ un test no aleatorizado para
el juzgamiento de la hipótesis nula H0 : θ ∈ Θ0 definido como
τ : “Rechazar H0 si (x1 , x2 , . . . , xn ) ∈ Cτ,n ”
La función
!
1 si (x1 , x2 , . . . , xn ) = xn ∈ Cτ,n
ψτ (xn ) =
0 si xn ∈ Cτ,n c c
siendo Cτ,n = X − Cτ,n
se denomina función crı́tica del test no aleatorizado τ .

Si la hipótesis nula H0 : θ = θ0 es una hipótesis simple, es decir la aseve-
ración alude que la distribución de la variable representativa de la problación
está plenamente determinada, y si además dicha hipótesis se asume verdadera,
entonces el error del tipo I puede calcularse como

Pθ0 ψτ (Xn )=1
dicho de otra manera, calcular este error del tipo I corresponde al cálculo de
la probabildad de rechazar la hipótesis nula dado que el valor del parámetro es
θ = θ0 . Sin embargo, bajo una situación relativa a una hipótesis nula compuesta,
que se refiere a una variedad de distribuciones, el error del tipo I no serı́a único,
serı́a un conjunto de errores del tipo I. El máximo del conjunto citado, la mayor
probabilidad de rechazar la hipótesis nula siendo cierta, se adopta como uno
de los elementos constituyentes en la construcción, en la caracterización o en la
evaluación de un test. La siguiente definición hace referencia a ello.
Definición 4.1.11. El tamaño del test τ , el tamaño de la región crı́tica

Cτ,n , la probabilidad de error del tipo I o nivel del test τ se denota
usualmente por α y está definido como

α = max Pθ ψτ (Xn )=1
θ∈Θ0
En palabras corrientes el nivel del test se entiende como la mayor probabili-

dad de tomar una decisión incorrecta asumiendo verdadero cualquier valor del
parámetro θ asociado con la hipótesis nula, y aun cuando es un elemento que
dentro del proceso de juzgamiento de hipótesis es controlable y elegible arbi-
trariamente, por supuesto debe corresponder a una probabilidad relativamente
pequeña, es usual asumirlo como alguno de los tres niveles: α = 0.1, α = 0.05
y α = 0.01, niveles que generalmente se les conoce como niveles del 10%, 5% y
1% respectivamente.
El error del tipo II, denotado frecuentemente por β, es otro elemento cons-
titutivo del proceso de juzgamiento de la hipótesis nula, tal vez habitualmente
menos aludido que el error del tipo I, pero igualmente esencial. De manera afı́n
al cálculo del error del tipo I, se puede generar una variedad de errores del tipo
II correspondientes a cada situación particular indicativa de la falsedad de la
hipótesis nula, un poco más complejo porque la probabilidad de no rechazar
la hipótesis nula, se calcula bajo la consideración de que la hipótesis nula es
falsa. Entonces cabe preguntarse: ¿Qué significa que H0 se considere falsa?. Si
c
Θ1 = Θ0 , entonces H0 es falsa cuando H1 sea considerada cierta, en cuyo caso
el sistema de hipótesis está conformado por hipótesis antitéticas; pero cuando
c
Θ1 = Θ0 , entonces el subconjunto de valores de Θ asociados con la falsedad de
la hipótesis nula será Θ − Θ0 , conjunto que contiene a Θ1 . Este hecho pone de
manifiesto que si H0 se asume como falsa no implica necesariamente que H1 sea
verdadera, puntualización ésta que no se puede pasar por alto cuando se realiza
el cálculo del error del tipo II.
¿Cuál de los dos errores que se pueden cometer en el juzgamiento de hipótesis
estadı́sticas es el más grave?. La respuesta realmente es que en forma general
no se puede evaluar su gravedad; cada caso particular permitirá valorar las
implicaciones de una decisión errónea.
Por ejemplo, si el propósito es remplazar un medicamento existente por
uno nuevo con base en el análisis de su eficacia, podrı́a asumirse el modelo
de Bernoulli para representar si la aplicación del medicamento en un tipo de
paciente surte el efecto esperado o no, y evaluar la citada eficacia por medio de
una muestra de pacientes a los cuales se les administre el medicamento. De esta
manera si θ denota la probabilidad de que el efecto de la aplicación del nuevo
medicamento en un paciente sea el esperado y si el fármaco existente tiene una
eficacia cuantificada en θ0 , puede establecerse el siguiente sistema de hipótesis
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
La afirmación de que el nuevo medicamento es a lo sumo tan eficaz como el

actual, traducida a lenguaje estadı́stico corresponde a la hipótesis nula en este
sistema. Con respecto a la decisión que debe tomarse, ésta se encuentra explı́cita
en el párrafo anterior: mantener el medicamento vigente o reemplazarlo por el
nuevo medicamento.
Entonces bajo esta situación particular, el error del tipo I consiste en colocar
en el mercado un medicamento con menor o igual eficacia que el actual, mientras
que el error del tipo II radica en abstenerse de colocar en el mercado un medica-
mento más eficaz que el vigente. La primera decisión implica pérdidas para el
laboratorio productor, mientras que la segunda involucra pérdida de rentabili-
dad. Con la ayuda de la información financiera de la compañı́a farmacéutica
puede establecerse cual decisión serı́a más costosa. Pero desde el punto de vista
de Salud Pública, las decisiones pueden valorarse contrariamente. ¿Es más grave
consumir un fármaco de menor calidad a no tener la posibilidad de utilizar uno
altamente eficaz?. Es obligado precisar con mayor detalle el contexto propio para
valorar las implicaciones de la decisión: ¿se trata de un medicamento contra el
resfriado común, o se trata de un medicamento para la cura de un determinado
tipo de cáncer?.
Como se deduce de lo anterior, no se puede hablar en términos absolutos cuál
de los errores es más oneroso, mientras que para una situación especı́fica sı́ existe
mayor factibilidad de hacerlo. En caso de poder establecer la preponderancia
de uno de los dos errores, algunos autores sugieren que se establezca el sistema
de hipótesis orientado por la convención de que el error del tipo I es más serio
que el error del tipo II. De esta manera se controla el error del tipo I, o lo que
es equivalente se regula el nivel del test, y el cálculo o la determinación del error
del tipo II estarı́a sujeto a esta elección de α. Sin embargo, esta sugerencia es
más una invitación a valorar la magnitud de los potenciales errores en un caso
determinado y no debe tenerse como principio inquebrantable.
Ejemplo 4.1.3. Retomando el ejemplo 4.1.2 y estableciendo el valor de la
desviación estándar como 0.75 fl oz, tanto la probabilidad de error del tipo
I como la probabilidad de error del tipo II, utilizando cada uno de los siguientes
tests, pueden ser calculadas y comparadas para varios valores de θ.
τ1 : “Rechazar H0 si x49 > 20.27, en caso contrario no rechazarla”
El nivel del primer test es α = 0.00587 porque

√ (20.27 − 20)
P20 X 49 > 20.27 = 1 − Φ 49 = 1 − Φ(2.52) = 0.00587
0.75
De igual manera los niveles de los test τ2 y τ3 son respectivamente del 1.255%
y 2.5%.
Probabilidad de error del tipo II

Test θ = 19.9 θ = 20.1 θ = 20.2 θ = 20.3 θ = 20.4 θ = 20.5 θ = 20.6
τ1 0.9997 0.9437 0.7432 0.3897 0.1125 0.0159 0.0010
τ2 0.9993 0.9043 0.6456 0.2877 0.0677 0.0076 0.0004
τ3 0.9981 0.8477 0.5372 0.2005 0.0381 0.0034 0.0001
Tabla 4.1: Tabla de compilación de probabilidades de error del tipo II, para tres test
particulares, según algunos supuestos valores de θ
Del contenido de la tabla 4.1 y de los niveles de los tests en consideración,

se deduce la superioridad del tercer test. Si se pretende elegir un test con nivel
inferior al 5%, los tests en comparación cumplen la exigencia y aunque con mayor
error del tipo I, el tercer test presenta persistentemente los menores valores de
la probabilidad de error del tipo II dentro del rango de valores de θ señalados
en la tabla mencionada.
Los temas de próximas secciones están justamente relacionados con la cons-

trucción de los mejores tests, construcción basada en métodos con alcances
mucho más generales que lo logrado en el ejemplo inmediatamente anterior.
El buen uso de la Estadı́stica además de ser realizado bajo principios éticos,
consiste en la elección y aplicación de los mejores procedimientos disponibles
para el logro de los objetivos en una situación particular. La incertidumbre
con la cual trabaja tanto el investigador, el analista estadı́stico como el usuario
ocasional de la estadı́stica, no justifica la utilización de cualquier herramienta
para abordar la explicación, descripción de un fenómeno o para la toma de
decisiones frente a él. Es preciso acudir a los cánones estadı́sticos para evaluar
la condición de cada procedimiento elegible para ser utilizado.
Cada uno de los procedimientos de la Inferencia estadı́stica está recomendado
por medio de una certificación relativa a su propósito. Los buenos estimadores
son elegibles a la luz de los requisitos tratados en el segundo capı́tulo, las mejores
estimaciones por intervalo se logran a través de intervalos confidenciales cons-
truidos con base en buenos estimadores puntuales pero escencialmente por su
mı́nima longitud. La calidad de un test por su parte, al configurarse como
la estrategia fundamental para la toma de decisiones estadı́sticas, es examinada
desde varios puntos de vista pero connaturalmente desde su capacidad de rechaz-
ar la hipótesis nula bajo presuntos escenarios relativos a valores del parámetro,
perspectiva conocida como la potencia de un test. Siendo ésta la directriz de
la construcción y evaluación del desempeño de un test, se tratará a partir de la
siguiente definición inicial conocida como función de potencia.
Definición 4.1.12. Sea τ un test no aleatorizado para el juzgamiento de H0
con función crı́tica ψτ (xn ). La función de potencia denotada como πτ (θ) es
una función con dominio Θ y recorrido el intervalo (0, 1), definida como

πτ (θ) = Pθ ψτ (Xn )=1
c
Definición 4.1.13. Siendo Θ1 = Θ0 la función βτ (θ) = 1 − πτ (θ), es llamada
curva caracterı́stica de operación o curva CO del test τ .
Ejemplo 4.1.4. El tiempo que una persona requiere para comprar una tarjeta
de ingreso al sistema de Transmilenio en la estación de Alcalá durante el año
2002, ha mostrado un comportamiento que sugiere el modelo Uniforme en el
intervalo (0, θ) para su descripción. Se afirma que el tiempo máximo de per-
manencia en la fila está entre dos y tres minutos. Para evaluar la afirmación y
tomar los correctivos del caso, se va a registrar el tiempo empleado por n per-
sonas que serán elegidas por medio de un procedimiento especial de muestreo
en la rampa de ingreso, y se propone la utilización del test
τ : “Rechazar H0 si yn ≤ 1.9 o si yn > 2.9”
para el juzgamiento de la hipótesis nula H0 en el sistema
H0 : θ ∈ [2, 3]
f rente a
H1 : θ ∈
/ [2, 3]
La función de potencia del test propuesto es
πτ (θ) = Pθ [Yn ≤ 1.9] + Pθ [Yn > 2.9]

= Pθ [Yn ≤ 1.9] + 1 − Pθ [Yn ≤ 2.9]
= 1 + FYn (1.9, θ) − FYn (2.9, θ)
n n n
1.9 1.9 2.9
πτ (θ) = I(0,1.9] (θ) + I(1.9,2.9] (θ) + 1 + − I(2.9,∞) (θ)
θ θ θ
cuya representación gráfica se observa en la figura 4.1.

Idealmente, la función de potencia de un test τ serı́a πτ (θ) = 1 − IΘ (θ) o
0
equivalentemente la curva CO ideal del test τ se establecerı́a como
βτ (θ) = 1 − IΘ (θ).
1
La función de potencia ideal para el ejemplo anterior tendrı́a la forma que
muestra la figura 4.2
Definición 4.1.14. El test τ con función crı́tica ψτ (xn ) se dice que es un test
insesgado para la hipótesis H0 si

max Pθ ψτ (Xn ) = 1 ≤ min Pθ ψτ (Xn )=1
θ∈Θ0 θ∈Θ1
o dicho en otra forma si
max πτ (θ) ≤ min πτ (θ)

θ∈Θ0 θ∈Θ1
πτ (θ)
1
| | | | |
1 2 3 4 5 θ
Figura 4.1: Gráfico de la función de potencia del correspondiente al ejemplo

4.1.4
πτ (θ)
1.9 2.9 θ
Figura 4.2: Gráfico de la función de potencia ideal correspondiente al ejemplo

4.1.4
El tamaño de la muestra reveló sus efectos en la estimación de parámetros y

ahora nuevamente se manifiesta como un elemento trascendental en la toma de
decisiones basadas en información estadı́stica. Como se señaló en el Capı́tulo
2, la calidad y la cantidad de información con la cual se cuenta para llevar a
cabo procesos de Inferencia estadı́stica, son dos ejes esenciales sobre los cuales
se sustentan los alcances de los procesos. Es evidente que el contar con una can-
tidad suficiente de información de excelente calidad, permite tomar decisiones
acertadas sin mayores riesgos. El concepto de la consistencia de un test, pre-
sentado a través de la siguiente definición, es la formalización y compendio de
esta evidencia.
Definición 4.1.15. Siendo τn un test de nivel α, n = 1, 2, . . . , para H0 : θ ∈ Θ0

c
frente a H1 : θ ∈ Θ1 = Θ0 , basado en una muestra aleatoria X1 , X2 , . . . , Xn ,
de una población con función de densidad fX (x, θ), dicho test recibe la denom-
inación de test consistente para H0 , si para cada θ ∈ Θ1 ,
lim Pθ [ψτn (Xn = 1)] = 1

n→∞
4.2 Tests más potentes

La función de potencia, además de describir perfectamente el comportamiento
de un test ante cualquier valor del parámetro, como ya se mencionó es la directriz
de la construcción de tests. Esa construcción o evaluación, fija la atención sobre
el valor o valores particulares de la función de potencia para uno o varios valores
especı́ficos del parámetro, en especial para valores del parámetro asociados con
la hipótesis alterna. Como precisión semántica el término potencia del test se
deja exclusivamente para referirse al valor de la función de potencia para un
elemento particular del espacio del parámetro, ası́ varios autores se refieran a
ella como la probabilidad de rechazar H0 siendo H1 verdadera. En ese sentido
la siguiente sección inicia lo pertinente a la idea de test más potente.
Definición 4.2.1. Si dentro del proceso de juzgamiento de la hipótesis nula

H0 , se considera a H0 y H1 como hipótesis simples, conformando el sistema de
hipótesis
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
el test τ ∗ con nivel α se dice que es más potente para H0 que cualquier otro
test τ para H0 si
1. πτ ∗ (θ0 ) = α Θ0 = {θ0 }, Θ1 = {θ1 }
2. πτ ∗ (θ1 ) ≥ πτ (θ1 )
Teniendo en cuenta un sistema de hipótesis como en el precisado en la defini-

ción 4.2.1, de inmediato se advierte que 1 − πτ (θ1 ) es la probabilidad de ocu-
rrencia del error del tipo II al utilizar el test τ . En estas condiciones, bajo un
sistema de hipótesis simples, un test más potente de tamaño α es aquel que
induce menor β, tal como lo logra el resaltado test τ ∗ , de la aludida definición.
Con el propósito de minimizar el error del tipo II, manteniendo el control
del error del tipo I viene a cooperar el Teorema de Neyman y Pearson, que a
continuación se presenta, teorema que permite deducir una forma de obtención
de tests más potentes, es decir revela un procedimiento para la construcción de
tests con menores errores del tipo II. Para aprestar su enunciado es menester
contar con la siguiente definición.

con función de densidad fX (x, θ). Si el sistema de hipótesis de juzgamiento de
4.2. TESTS MÁS POTENTES 159
la hipótesis nula H0 es un sistema de hipótesis simples

H0 : θ = θ 0
f rente a
H1 : θ = θ 1
un test definido como
τ : “Rechazar H0 si λn < k”
recibe la denominación de test de razón simple de verosimilitudes siendo
)
n
fX (xi , θ0 )
L(θ0 ; x1 , x2 , . . . , xn )
λn = = i=1
)
n
L(θ1 ; x1 , x2 , . . . , xn )
fX (xi , θ1 )
i=1
Teorema 4.2.1 (Lema de Neyman Pearson). Sea X1 , X2 , . . . , Xn una

muestra aleatoria de una población con función de densidad fX (x, θ). Si el
sistema de hipótesis es
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
el test τ cuya función crı́tica corresponde a
⎧ n n
⎪
⎪
⎪
⎪ 1 si k f (x , θ ) > fX (xi , θ0 ) esto es, si k > λn
⎨ X i 1
i=1 i=1
ψτ (xn ) =
⎪
⎪
n n
⎪
⎪ 0 si k f (x , θ ) < fX (xi , θ0 ) es decir, si k < λn
⎩ X i 1
i=1 i=1
es un test más potente para H0 , siendo k una constante positiva y πτ (θ0 ) = α.

con distribución Normal de valor esperado μ y varianza conocida σ 2 , determinar
un test más potente para H0 , en el sistema
H0 : μ = μ0
f rente a
H1 : μ = μ1
Conviniendo que μ1 > μ0 ,
n
) 1 xi −μ0 2
√ 1 e− 2 ( σ )
2πσ
λn = i=1
n
) xi −μ1 2
1
√ 1 e− 2 ( σ )
2πσ
i=1
n
1 n 2 2
σ2
(μ0 −μ1 ) xi − 2σ 2 (μ0 −μ1 )
=e i=1
El test de razón simple de verosimilitudes para H0 dentro del sistema establecido

puede formularse como
n
1 n 2 2
2 (μ0 −μ1 ) xi − 2σ 2 (μ0 −μ1 )
τ : “Rechazar H0 si e σ i=1 < k”
test que es equivalente a
1 n
n
τ : “Rechazar H0 si (μ0 − μ1 ) xi − 2 (μ20 − μ21 ) < ln k”
σ2 i=1
2σ
simplificadamente equivalente al test conseguido a partir de operaciones conve-

nientes

n
τ : “Rechazar H0 si xi > c”
i=1
La idea de la razón simple de verosimilitudes da pie para presuponer que ese

concepto puede originar un concepto más general que abarque aquellas situa-
ciones en las cuales el sistema de hipótesis incluya al menos una hipótesis com-
puesta. En efecto, la razón generalizada de verosimilitudes, hace referencia a
un sistema de hipótesis como el mencionado pero con la especificidad de es-
tar constituido por hipótesis antitéticas. La siguiente definición formaliza dicho
concepto.
con función de densidad fX (x, θ). Si el sistema de hipótesis en el juzgamiento
de la hipótesis nula es
H0 : θ ∈ Θ 0
f rente a
H1 : θ ∈ Θ 1
con Θ1 = Θ − Θ0 , la razón generalizada de verosimilitudes corresponde al

cociente
sup L(θ; x1 , x2 , . . . , xn )
θ∈Θ0
λn = = λ(x1 , x2 , . . . , xn )
sup L(θ; x1 , x2 , . . . , xn )
θ∈Θ
Acerca de λn objeto de la definción 4.2.3 es conveniente puntualizar lo si-

guiente
1. λn es un valor particular de la variable aleatoria
Λn = λ(X1 , X2 , . . . , Xn )
2. λn ∈ (0, 1]
3. El denominador de Λn es la función de verosimilitud evaluada en el esti-

mador máximo verosı́mil de θ
El conocimiento de la distribución de Λn permite consecuentemente la formu-
lación definitiva del test, pero esto no siempre sucede, y es por ello que en
muchas oportunidades es necesario recurrir a tests equivalentes derivados del
comportamiento de Λn . Sin embargo algunas veces la exploración de la citada
distribución no es factible, pero se puede contar con un tamaño de muestra
relativamente grande. Bajo ciertas condiciones la variable aleatoria −2 ln(Λn )
puede manejarse como una variable aleatoria con distribución Ji-cuadrado, co-
mo lo indica el siguiente teorema, y de esta manera se puede establecer una
forma especial del test.
Teorema 4.2.2. Bajo condiciones de regularidad, dentro del juzgamiento de la
hipótesis nula, siendo L(θ1 , θ2 , . . . , θl , u1 , u2 , . . . , uN ) la función de verosimili-
tud de las variables aleatorias U1 , U2 , . . . , UN y l0 el número de componentes
especificadas por la hipótesis nula, entonces la variable aleatoria −2 ln(ΛN ),
converge en distribución a una variable aleatoria con distribución Ji-cuadrado
con v grados de libertad, v = l − l0 .
Bajo estas condiciones un test de razón generalizada de verosimilitudes puede
presentarse en una forma especial correspondiente a
τ : “Rechazar H0 si − 2 ln(λN ) > χ21−α (v)”
Ejemplo 4.2.2. El juzgamiento de la homoscedasticidad ha inducido el desa-

rrollo de varios tests. Este ejemplo, como forma especial de juzgarla, es una
ilustración del teorema 4.2.2.
Se consideran k poblaciones independientes asumiendo para cada una de ellas el
modelo Gaussiano, de tal manera que la variable que representa a la población
j tiene valor esperado μj y desviación estándar σj , j = 1, 2, . . . , k. Bajo estas
consideraciones, Xj1 , Xj2 , . . . , Xjnj , representa la muestra aleatoria de tamaño
nj , correspondiente a la población j.
La homoscedasticidad entendida como la caracterı́stica de que un grupo de
poblaciones tienen la misma dispersión, expresada en términos de sus varianzas,
se puede traducir en la hipótesis nula que forma parte del siguiente sistema
H0 : σ12 = σ22 = . . . = σk2

f rente a
H1 : no todas las varianzas son iguales
La función de verosimilitud

L = L μ1 , μ2 , . . . , μk , σ12 , σ22 , ..., σk2 ; x11 , x12 , . . . , x1n1 , . . . , xk1 , xk2 , . . . , xknk
de las N variables aleatorias X11 , X12 , . . . , X1,n1 , . . . , Xk1 , Xk2 , . . . , Xknk , in-
n
cluye l = 2k componentes, donde N = nj ; por otra parte denotando por σ 2
j=1
el valor común desconocido de las varianzas de cada población,

6 7
Θ0 = (μ1 , μ2 , . . . , μk , σ 2 )|μj ∈ R, σ 2 > 0
determinado por la hipótesis nula, incluye l0 = (k + 1) componentes, especifi-

cadas por ésta.
Ası́ entonces
k nj
2
1 1 xji − μj
L= √ exp −
j=1 i=1
2πσj 2 σj
sup L
Θ0
La determinación de λN = requiere de los siguientes elementos:
sup L
Θ

nj
• La estimación máximo-verosı́mil de μj es 1
nj xji = xj
i=1

nj
• La estimación máximo-verosı́mil de σj2 es 1
nj (xji − xj )2
i=1
• La estimación máximo-verosı́mil del valor común σ 2 bajo la hipótesis nula

k nj
es N1 (xji − xj )2
j=1 i=1
con lo anterior
n2j
)
k
nj
sup L 1
nj (xji − xj )2
Θ0 j=1 i=1
λN = = ⎡ ⎤ N2
sup L k nj
(xji −xj )2
Θ
⎢ j=1 i=1 ⎥
⎣ k ⎦
nj
j=1
pero la determinación de la distribución de ΛN es una tarea muy intrincada.

Por ello si se cuenta con muestras relativamente grandes, −2 ln(ΛN ) converge en
distribución a una variable aleatoria con distribución Ji-cuadrado con v grados
de libertad, v = l − l0 = 2k − (k + 1) = (k − 1), por lo tanto se le puede tratar
como tal y por consiguiente el test puede enunciarse como
n2j
)
k
nj
1
nj (xji − xj )2
j=1 i=1
τ : “Rechazar H0 si − 2 ln ⎡ ⎤ N2 > χ21−α (k − 1)”
k nj
(x −xj )2
⎢ j=1 i=1 ji ⎥
⎣ N ⎦
Definición 4.2.4. Conforme a la definición 4.2.3, un test τ cuya función crı́tica

corresponde a:
⎧ n n
⎪
⎪
⎪
⎪ 1 si k f (x , θ ) > fX (xi , θ0 ) esto es, si k > λn
⎨ X i 1
i=1 i=1
ψτ (xn ) =
⎪
⎪
n n
⎪ 0 si k
⎪ f (x , θ ) < fX (xi , θ0 ) es decir, si k < λn
⎩ X i 1
i=1 i=1
recibe la denominación de test de razón generalizada de verosimilitudes

de nivel α, siendo k una constante positiva y max Pθ [ψτ (Xn ) = 1] = α.
θ∈Θ0
La sigla LRT (likelihood ratio test) es utilizada frecuentemente como

abreviatura para referirse a un test de razón de verosimilitudes, denominación
ésta que cubre tanto a los tests de razón simple de verosimilitudes como a los
tests de razón generalizada de verosimilitudes.
con función de densidad fX (x, θ) definida como
fX (x, θ) = θe−θx I(0,∞) (x)
determinar un test de razón generalizada de verosimilitudes para el juzgamiento
de H0 en el sistema
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
n
−θ xi
como L(θ; x1 , x2 , . . . , xn ) = θn e i=1 y además
n
1
sup L(θ; x1 , x2 , . . . , xn ) = e−n
θ∈Θ xn
y con el apoyo de la figura 4.3

⎧ n
⎪
⎪ 1 1
⎨ e−n cuando ≤ θ0
sup L(θ; x1 , x2 , . . . , xn ) = x n x n
⎪
⎪ 1
0<θ<θ0
⎩ θ0n e−θ0 nxn cuando > θ0
xn
luego
⎧
⎪ 1
⎪
⎪ 1 cuando ≤ θ0
⎨ xn
λn = θ0n e−θ0 nxn 1
⎪
⎪ n cuando > θ0
⎪
⎩ 1 xn
xn e−n
L(θ)
θ0 x1n θ
L(θ)
1
xn θ0 θ
Figura 4.3: Determinación del supremum para θ < θ0 , según la localización de

θ0 , correspondiente al ejemplo 4.2.3
por lo tanto el test de razón generalizada de verosimilitudes se puede enunciar

como
1 θn e−θ0 nxn
τ : “Rechazar H0 si > θ0 y 0 n < k”
xn 1
e−n
xn
o equivalentemente
τ : “Rechazar H0 si xn θ0 < 1 y (θ0 xn )n e−n(θ0 xn −1) < k”
Reemplazando θ0 xn = y, nótese que y n e−n(y−1) tiene máximo cuando y = 1 y

dado que y < 1, y n e−n(y−1) < k si y sólo si y ≤ k0 , como se deriva de la figura
4.4
En consecuencia, el test puede enunciarse como
τ : “Rechazar H0 si θ0 xn ≤ k0 ”
y n e−n(y−1)
1
k
k0 1 y
Figura 4.4: Representación gráfica de la equivalencia del test de razón general-

izada de verosimilitudes con el test final del ejemplo 4.2.3
El nivel de test puede determinarse ahora, de la siguiente manera.

α = Pθ0 θ0 X n ≤ k0

n
= Pθ0 θ0 Xi ≤ nk0
i=1
nk0
1 n−1 −t
= t e dt
0 Γ(n)

n
porque θ0 Xi ∼ Gama(n, 1). A partir de este punto es posible redefinir el
i=1
test, pues de la última igualdad se obtiene el valor de k0 , siendo por supuesto
nk0 el correspondiente percentil α.
Definición 4.2.5. Si dentro del proceso de juzgamiento de la hipótesis nula H0

se considera el sistema de hipótesis
H0 : θ ∈ Θ0
f rente a
H1 : θ ∈ Θ1
el test τ ∗ se denomina test uniformemente más potente, UMP, para H0

con nivel α si
1. sup πτ ∗ (θ) = α
θ∈Θ0
2. πτ ∗ (θ) ≥ πτ (θ) para todo θ ∈ Θ1 y para todo test τ con nivel menor o
igual a α.
Ejemplo 4.2.4. Determinar un UMP para H0 en el sistema de hipótesis
H0 : θ = θ 0
f rente a
H1 : θ > θ 0
basado en una muestra aleatoria X1 , X2 , . . . , Xn de una población con función

de densidad
fX (x, θ) = θe−θx I(0,∞) (x)
En el sistema de hipótesis
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
y conviniendo que θ1 > θ0 , un test más potente para H0 puede obtenerse a

partir del Lema de Neyman Pearson (teorema 4.2.1, página 159). Siendo
n
−θ0 xi
θ0n e i=1
λn = n
−θ1 xi
θ1n e i=1
el test más potente para H0 en este último sistema está formulado como
n n
θ0 −(θ0 −θ1 ) xi
τ : “Rechazar H0 si e i=1 < k”
θ1
o equivalentemente

n n
1 θ1
τ : “Rechazar H0 si xi < ln k ”
i=1
θ1 − θ0 θ0
o de manera más simple, como

n
τ : “Rechazar H0 si xi < c”
i=1
Este test es más potente para H0 bajo cualquier elección de θ1 > θ0 , de tal
manera que el test

n
τ : “Rechazar H0 si xi < c”
i=1
es UMP para H0 en el sistema
H0 : θ = θ 0
f rente a
H1 : θ > θ 0
y finalmente para un nivel preestablecido del test, la constante c puede deter-

minarse de la siguiente forma.
n

α = Pθ0 Xi < c
i=1
c
1 n n−1 −θ0 t
= θ t e dt
0 Γ(n) 0
c es entonces el percentil α de una Gama(n, θ0 ).

Definición 4.2.6. Una familia de densidades {fX (x, θ)}, θ ∈ Θ ⊆ R se dice
que tiene razón monótona de verosimilitudes , MLR, en la estadı́stica
T = t(X1 , X2 , . . . , Xn ) si para dicha estadı́stica, el cociente
L(θ1 ; x1 , x2 , . . . , xn )
L(θ2 ; x1 , x2 , . . . , xn )
es una función no creciente de t(x1 , x2 , . . . , xn ) para cada θ1 < θ2 o no decre-

ciente de t(x1 , x2 , . . . , xn ) para cada θ1 < θ2 .
Ejemplo 4.2.5. La familia de densidades de Poisson tiene razón monótona de

n
verosimilitudes en Xi . En efecto,
i=1
n
xi
L(θ1 ; x1 , x2 , . . . , xn ) θ1
e−n(θ1 −θ2 )
i=1
=
L(θ2 ; x1 , x2 , . . . , xn ) θ2

n
la cual es una función no decreciente de xi .
i=1

con función de densidad fX (x, θ), θ ∈ Θ ⊆ R y la familia {fX (x, θ)} tiene MLR
en la estadı́stica T = t(X1 , X2 , . . . , Xn ).
1. Si la razón monótona de verosimilitudes es no decreciente y si tα es tal
que
Pθ0 [t(X1 , X2 , . . . , Xn ) < tα ] = α
entonces el test
τ : “Rechazar H0 si t(x1 , x2 , . . . , xn ) < tα ”

es UMP para H0 , en el sistema

H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
2. Si la razón monótona de verosimilitudes es no creciente y si t1−α es tal

que
Pθ0 [t(X1 , X2 , . . . , Xn ) > t1−α ] = α
entonces el test
τ : “Rechazar H0 si t(x1 , x2 , . . . , xn ) > t1−α ”
es UMP para H0 , en el sistema
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0

con función de densidad fX (x, θ), θ ∈ Θ ⊆ R, y fX (x, θ) perteneciente a la
familia exponencial unidimensional de densidades. Siendo la estadı́stica natural

n
de la familia exponencial unidimensional Tn = t(X1 , X2 , . . . , Xn ) = d(Xi ),
i=1
si c(θ) es una función estrictamente monótona, entonces la familia de densi-
dades {fX (x, θ)} tiene MLR en la estadı́stica Tn .
con función de densidad fX (x, θ), θ ∈ Θ ⊆ R y fX (x, θ) pertenece a la familia
exponencial unidimensional de densidades. Siendo la estadı́stica natural de la

n
familia Tn = t(X1 , X2 , . . . , Xn ) = d(Xi ) entonces
i=1
1. Si c(θ) es una función monótona creciente de θ y t1−α tal que

n

Pθ0 d(Xi ) > t1−α = α
i=1
el test

n
τ : “Rechazar H0 si d(xi ) > t1−α ”
i=1

H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
o en el sistema
H0 : θ = θ 0
f rente a
H1 : θ > θ 0
2. Si c(θ) es una función monótona decreciente de θ y tα tal que

n

Pθ0 d(Xi ) < tα = α
i=1
el test

n
τ : “Rechazar H0 si d(xi ) < tα ”
i=1
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
o en el sistema
H0 : θ = θ 0
f rente a
H1 : θ > θ 0
Antes de continuar en la siguiente sección dedicada al estudio de algunos

tests bajo normalidad, es necesario concluir la presentación de los conceptos
básicos del juzgamiento de hipótesis con una mención del denominado Valor p.
Para hacer expedito un test, su forma final debe ser preferentemente muy
sencilla. En lo posible debe conocerse la distribución de la estadı́stica que lo
soporta y debe ser factible el cálculo de sus percentiles, precisamente para que
la utilización del test sea fácil.
Igualmente esa forma final, como la de muchos tests, debe estar en la forma
estándar consistente en la comparación de un valor de una estadı́stica con un
percentil de la misma elegido conforme al nivel del test asumido, para conservar
estable un modo común muy difundido y generalmente aceptado.
Muchos test han sido construidos teniendo en cuenta estas sugerencias y la
realización de los cálculos respectivos y la determinación de los percentiles se
logran mediante la utilización de alguno de los múltiples programas de cómputo
estadı́stico que se encuentran en el mercado de software o a disposición en In-
ternet.
Justamente esos programas han incorporado dentro de sus cálculos y por
ende dentro de la presentación de los resultados el denominado valor p. Este
valor puede entenderse como una ayuda muy eficiente en la lectura de los re-
sultados para el juzgamiento de una hipótesis, proque su valor condensa los
elementos del test y hace más diligente la decisión.
Tratando al valor particular de la estadı́stica explı́cito en el test como un
percentil de la misma, la forma estándar que compara el valor de la estadı́stica
con algunos de sus percentiles, es decir, que compara valores de una variable
aleatoria, puede vérsela de manera equivalente desde otro ángulo, la de comparar
probabilidades: la probabilidad asociada al valor particular de la estadı́stica
tratado como un percentil y la probabilidad que representa el valor α.
Ası́ entonces, un test de nivel α puede transformarse a una manera equiva-
lente utilizando el recurso del valor p, de la siguiente manera,
τ : “Rechazar H0 si el valor p es inferior a α”
Esta probabilidad asociada al valor particular de la estadı́stica, el valor p, co-

rresponde a una función de la probabilidad de que la variable aleatoria que
soporta el test sea menor que el valor especı́fico obtenido de la información de
la muestra particular. Un par de ejemplos ilustran mejor la idea del valor p.
Ejemplo 4.2.6. El test obtenido en el ejemplo 4.2.4 puede modificarse final-
mente como a continuación se indica y de allı́ originar el valor p correspondiente.
n
Debido a que bajo la hipótesis nula Xi ∼ Gama(n, θ0 ), entonces la variable
i=1

n
que soporta el test Wc = 2θ0 Xi tiene distribución Ji-cuadrado con 2n grados
i=1
de libertad. Con estos elementos el test presenta su forma final
τ : “Rechazar H0 si wc < χ2α (2n)”
El valor p en este caso es

wc n
1 1 1
p = P [Wc < wc ] = xn−1 e− 2 x dx
0 Γ(n) 2
Por supuesto si wc < χ2α (2n) implica que p < α y como consecuencia el test
puede expresarse equivalentemente como:
τ : “Rechazar H0 si p < α”
Ejemplo 4.2.7. La muestra de 49 envases que señala el ejemplo 4.1.1, también

puede utilizarse para respaldar el control de las disconformidades en la fase de
rotulación del envase, puesto que las normas internas de aseguramiento de la
calidad admiten a lo sumo el 1% como fracción disconforme en la fase de rotu-
lación y exigen que el test escogido debe tener nivel inferior a 5%.
Acudiendo al modelo de Bernoulli, conviniendo que el término éxito corresponde
a la representación de un envase que revela alguna disconformidad en su rótulo
(colocación incorrecta, rotura, decoloración o inexistencia) y denotando la pro-
babilidad de éxito como π (fracción disconforme), el seguimiento estadı́stico
wc P [Wc > wc ]
0 0.3888827605
1 0.0864105914
2 0.0130840050
3 0.0014801344
4 0.0001322100
Tabla 4.2: Algunos valores p en el juzgamiento sobre la fracción disconforme
de la fase de rotulación del proceso puede estar encauzado por el sistema de

hipótesis:
H0 : π ≤ 0.01
f rente a
H1 : π > 0.01
Como la familia de densidadesnde Bernoulli tiene razón monótona de verosimili-

tudes en la estadı́stica Wc = Xi (variable que registra el número de envases
i=1
en la muestra rotulados no apropiadamente), y además la razón es no decreciente

n
en xi , entonces un test UMP para H0 en el sistema planteado es
i=1
τ : “Rechazar H0 si wc > k”

49
Teniendo en cuenta que bajo la hipótesis nula Xi ∼ Bin(49, 0.01) y que un
i=1
test con nivel del 5% no es posible conseguirse, la tabla 4.2 nos permite dos
finalidades: la especificación de α, siguiendo la recomendación de las normas
internas, y la enumeración de algunos valores p.
El valor p en este caso corresponde a p = 1 − P [Wc ≤ wc ] y del contenido de
la tabla anterior se deduce que α = 0.013084, porque 0.086410 no es admisible
por las normas. Finalmente el test correspondiente formulado especı́ficamente
para tomar decisiones en la fase de rotulación,

49
τ : “Rechazar H0 si xi > 2”
i=1
es equivalente a:
τ : “Rechazar H0 si p < 0.013084”
Por lo tanto si el monitor de un computador muestra el valor p = 0.08641059

significa que en la muestra se encontraron 2 envases disconformes y por lo tanto
no se toma correctivo alguno. Mientras que si p = 0.00013221 significa que en

la muestra se encontraron 5 envases rotulados no apropiadamente y por lo tanto
la decisión consiste en evaluar las posibles causas atribuibles a la perturbación
y de tomar los correctivos a que haya lugar.
4.3 Juzgamiento de hipótesis sobre promedios,

bajo Normalidad
Utilizar el modelo Gaussiano como asistente en la toma de decisiones es una
práctica común no siempre realizada empleando las mejores premisas. La divul-
gación acentuada que hacen los textos sobre los tests bajo Normalidad da pie
para que el lector cimiente la idea de que el juzgamiento de hipótesis se reduce
únicamente a casos particulares regidos por el modelo Gaussiano. La inclusión
de dos secciones en este capı́tulo relativas a algunos tests bajo normalidad debe
entenderse como aplicaciones muy especiales de conceptos previos en la cons-
trucción de tests bajo el modelo soberano de los modelos de probabilidad, y
que su aplicación está sujeta a los resultados favorables a la normalidad den-
tro de un proceso de juzgamiento del ajuste al modelo, tema que será tratado
posteriormente, o bajo argumentos sólidos de tamaño de muestra suficiente que
justifican su utilización. Esta sección está dedicada al desarrollo de tests para
el juzgamiento de hipótesis referentes a promedios poblacionales y la sección
siguiente trata lo pertinente al juzgamiento de hipótesis sobre varianzas, bajo
la adopción del modelo de Gauss.
4.3.1 Juzgamiento de la hipótesis nula H0 : μ = μ0

Siendo X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n con distribución Nor-
mal de valor esperado μ y varianza σ 2 , pueden fijarse tres sistemas de hipótesis
en el juzgamiento de esta hipótesis particular.
• Sistema A
H0 : μ = μ0
f rente a
H1 : μ < μ0
• Sistema B
H0 : μ = μ0
f rente a
H1 : μ > μ0
4.3. JUZGAMIENTO DE HIPÓTESIS SOBRE PROMEDIOS, BAJO NORMALIDAD 173
• Sistema C
H0 : μ = μ0
f rente a
H1 : μ = μ0
1. Primer Supuesto: σ 2 es una cantidad conocida.

Considerando especı́ficamente el Sistema B, fX (x, θ) puede expresarse
como:
1 1 (x−θ) 2
fX (x, θ) = √ e− 2 [ σ ]
2πσ
1 1 θ 2 1 x 2 θ 2
=√ e− 2 ( σ ) e− 2 ( σ ) e( σ )
2πσ
de esta manera se deduce que fX (x, θ) pertenece a la familia exponencial

de densidades, estableciendo las funciones,
1 1 θ 2 1 x 2 θ
a(θ) = √ e− 2 ( σ ) , b(x) = e− 2 ( σ ) , c(θ) = , d(x) = x
2πσ σ
En razón a que c(θ) es monótona creciente, considerando la estadı́stica

n
t(X1 , X2 , . . . , Xn ) = Xi
i=1
en consecuencia el test

n
τB : “Rechazar H0 si xi > k ∗ ”
i=1
es UMP para H0 en el Sistema B.

n
∗
Pμ Xi > k =α
i=1

k∗
Pμ X n > =α
n

X n − μ0 k ∗ /n − μ0
Pμ √ > √ =α
σ/ n σ/ n
Pμ [Zc > d] = α
X n − μ0
donde Zc = √ , entonces
σ/ n
τB : “Rechazar H0 si zc > z1−α ”

α
|
Rechazar H0 0 z
Figura 4.5: Región crı́tica del test τA
De manera similar un test para H0 en el Sistema A es
τA : “Rechazar H0 si zc < zα ”
que gráficamente la figura 4.5 lo representa.

Bajo la misma suposición de que σ 2 es conocido, finalmente el juzgamiento
de H0 : μ = μ0 dentro del Sistema C,
H0 : μ = μ0
f rente a
H1 : μ = μ0
está apoyado por un test que se deduce de la forma siguiente.

⎧ n ⎫
⎪ 2⎪
n ⎪
⎨ − (x i − θ) ⎪
⎬
1
L(θ; x1 , x2 , . . . , xn ) = √ exp i=1
2πσ ⎪
⎪ 2σ 2 ⎪
⎪
⎩ ⎭
⎧ n
⎫
n ⎨− (xi −μ0 )2 ⎬
√1 exp i=1
sup L 2πσ ⎩ 2σ2 ⎭
θ=μ0
λn = = ⎧ n
⎫
sup L n ⎨− (xi −xn )2 ⎬
θ∈Θ √1 exp i=1
2πσ ⎩ 2σ2 ⎭
⎧ n ⎫
⎪
n
⎪ (xi − xn )2 −
⎨ (xi − μ0 )2 ⎪
⎪
⎬
i=1 i=1
λn = exp
⎪
⎪ 2σ 2 ⎪
⎪
⎩ ⎭
Como

n
n
(xi − μ0 )2 = {(xi − xn ) + (xn − μ0 )}2
i=1 i=1

n
n
n
= (xi − xn ) + 2
2
(xi − xn ) (xn − μ0 ) + n(xn − μ0 )2
i=1 i=1 i=1

n
= (xi − xn )2 + n(xn − μ0 )2
i=1
entonces
⎧ n ⎫
⎪
n
2⎪
⎪
⎨ (xi − xn )2
− (xi − xn )2
− n(xn − μ0 ) ⎪
⎬
i=1 i=1
λn = exp
⎪
⎪ 2σ 2 ⎪
⎪
⎩ ⎭

n(xn − μ0 )2
= exp −
2σ 2
por lo tanto el test construido con base en la razón generalizada de vero-
similitudes está determinado como

n(xn − μ0 )2
τC : “Rechazar H0 si exp − < k”
2σ 2
pero
8
n(xn − μ0 )2 n(x − μ )2
n 0
exp − <k implica que > k0
2σ 2 2σ 2
y consecuentemente que |zc | > k ∗ . En definitiva se establece el test como

τc : “Rechazar H0 si |zc | > z1− α2 ”
que gráficamente está representado por la figura 4.6. La función de po-
tencia de este test se puede establecer fácilmente como
√ √
n(θ − μ0 ) n(θ − μ0 )
πτc (θ) = Φ −z1− α2 + + Φ −z1− α2 −
σ σ
Gráficamente esta función de potencia se presenta en la figura 4.7
2. Segundo Supuesto: σ 2 es una cantidad desconocida.
• Con referencia al Sistema C, estrictamente hablando el sistema de-
berı́a plantearse ası́
H0 : μ = μ0 , σ 2 > 0
f rente a
H1 : μ = μ0 , σ 2 > 0
1−α
α α
2 2
|
Rechazar H0 0 Rechazar H0 z
Figura 4.6: Región crı́tica del test τc
de esta manera
Θ0 = {(μ, σ 2 )|μ = μ0 , σ 2 > 0}, Θ = {(μ, σ 2 )|μ ∈ R, σ 2 > 0}
y por lo tanto
⎛ ⎛ n ⎞⎞
1 ⎜ i=1(xi −xn )2 ⎟
⎜ − ⎝ s2
⎠⎟
⎜ 1 2 n
⎟
sup L = ⎜ √ e ⎟
θ∈Θ ⎝ 2
2π sn ⎠
ns2
1 −1 s2
n
=√ e 2 n
2
2π sn
⎛ ⎞ n2
⎜ n ⎟ −n
=⎜
⎝
n
⎟ e 2
⎠
2π (xi − xn )2
i=1
Por otra parte
⎛ ⎞ n2
⎜ n ⎟ −n
sup L = ⎜
⎝
n
⎟ e 2
⎠
θ∈Θ0 2π (xi − μ0 )2
i=1
porque bajo Θ0 , la función de verosimilitud L tiene máximo cuando

πτc (θ)
1
α
|
μ0 θ
Figura 4.7: Forma de la función de potencia del test τc para el juzgamiento de

la hipótesis nula H0 : θ = μ0 bajo el modelo Gaussiano asumiendo el supuesto
de varianza conocida

n
μ = μ0 y σ 2 = 1
n (xi − μ0 )2 . En consecuencia
i=1
⎛
n ⎞ n2
(xi − xn ) 2
⎜ i=1 ⎟
λn = ⎜
⎝ n
⎟
⎠
(xi − μ0 )2
i=1
⎛
n ⎞ n2
(xi − xn )2
⎜ ⎟
=⎜
⎝n
i=1

n
⎟
⎠
(xi − xn )2 + n (xi − μ0 )2
i=1 i=1
⎛ ⎞ n2
⎜ ⎟
⎜ ⎟
⎜ 1 ⎟
=⎜
⎜ n
⎟
⎟
⎜ n (xn −μ0 )2 ⎟
⎝1 + i=1
n
⎠
(xi −xn )2
i=1
ası́ entonces, el test de razón generalizada de verosimilitudes para la

hipótesis en consideración en el sistema C,
τC : “Rechazar H0 si λn < k”
puede formularse en términos de

n(xn − μ0 )2
n
(xi −xn )2
i=1
n−1
puesto que cuando esta expresión crece el valor de λn decrece.

Ahora bien, como
+ +
, , n(X n −μ0 )2 √
, n(X n − μ0 ) 2 , n X n − μ0
Tc = , n ,
=, n σ
= ∼ t(n − 1)
- (Xi −X n )2 - (Xi −X n )2 Sn
i=1 i=1
n−1 σ(n−1)
el test para el juzgamiento de H0 en el Sistema C queda establecido

como
τC : “Rechazar H0 si |tc | > d”
o más precisamente, cuando se especifica un valor de α, como
τC : “Rechazar H0 si |tc | > t1− α2 (n − 1)”
• En el Sistema A se tiene que
H0 : μ = μ0
f rente a
H1 : μ < μ0
de manera que el test para juzgar H0 corresponde a
τA : “Rechazar H0 si tc < tα (n − 1)”
• Para el Sistema B,
H0 : μ = μ0
f rente a
H1 : μ > μ0
el test para juzgar H0 en este sistema está dado por
τB : “Rechazar H0 si tc > t1−α (n − 1)”
La decisión que se tome mediante el test τA , puede asumirse igualmente me-

diante su correspondiente valor p, valor que puede calcularse como:
p = Φ(zc )
mientras que el valor p asociado al test τB , se obtiene mediante la probabilidad,
p = 1 − Φ(zc )
y finalmente para el caso del valor p ligado al test τc , se calcula mediante
p = 2(1 − Φ(|zc |))

z
z1−α |zc | z1− α2
Figura 4.8: Justificación sobre el valor p asociado al test τc
La razón de este cálculo lo sugiere la figura 4.8; ante una situación en la cual el
valor particular zc fuese tal que z1−α < |zc | < z1− α2 , y admitiendo p = 1−Φ(zc ),
no se dispondrı́a de una forma alternativa de decisión equivalente al test τc ,
puesto que claramente no habrı́a evidencia estadı́stica para rechazar la hipótesis
nula por ser |zc | < z1− α2 , pero por otra parte como p < α la decisión serı́a
contraria. De esta manera la decisión que se tome mediante el test τc es idéntica
a la que se tome mediante la utilización del valor p = 2(1 − Φ(|zc |)).
Las funciones de potencia de los tests τA y τB se ilustran en las figuras 4.9
y 4.10.
πτA (θ)
1
α
|
μ0 θ
Figura 4.9: Forma de la función de potencia del test τA para el juzgamiento de

πτB (θ)
1
α
|
μ0 θ
Figura 4.10: Forma de la función de potencia del test τB para el juzgamiento de

4.3.2 Juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0

Sea X1 , X2 , . . . , Xn una muestra aleatoria de tamaño n de una población con
distribución Normal de valor esperado μ1 y varianza σ12 . De la misma forma, sea
Y1 , Y2 , . . . , Ym una muestra aleatoria de tamaño m, de una población Normal
de valor esperado μ2 y varianza σ22 . Siendo independientes las dos muestras, la
hipótesis nula puede juzgarse frente a tres hipótesis alternas, en los siguientes
términos
• Sistema A
H0 : μ1 − μ2 = δ0
f rente a
Ha : μ1 − μ2 < δ0
• Sistema B
H0 : μ1 − μ2 = δ0
f rente a
Ha : μ1 − μ2 > δ0
• Sistema C
H0 : μ1 − μ2 = δ0
f rente a
Ha : μ1 − μ2 = δ0
Juzgamiento de
H0 : μ = μ0
Sistema A Sistema B Sistema C

H0 : μ = μ0 H0 : μ = μ0 H0 : μ = μ0
frente a frente a frente a
H1 : μ < μ0 H1 : μ > μ0 H1 : μ = μ0
√ √
n(xn − μ0 ) No ¿El valor de σ2 se Si n(xn − μ0 )
tc = zc =
sn asume conocido? σ
Tests Tests
τA : “Rechazar H0 si τA : “Rechazar H0 si
tc < tα (n − 1)” zc < zα ”
τB : “Rechazar H0 si τB : “Rechazar H0 si
tc > t1−α (n − 1)” zc > z1−α ”
τC : “Rechazar H0 si τC : “Rechazar H0 si
|tc | > t1− α2 (n − 1)” |zc | > z1− α2 ”
Figura 4.11: Compendio 1
El propósito de expresar la diferencia de promedios poblacionales en términos

de δ0 tiene el fin de presentar de una manera más general el caso particular muy
corriente en el cual la hipótesis nula establece que δ0 = 0.
1. Primer Supuesto: σ12 , σ22 son constantes conocidas.
Considerando la variable aleatoria
(X n − Y m ) − δ0
Zc = .
σ12 σ22
n + m
es muy sencillo confirmar que se trata de una variable aleatoria con dis-
tribución Normal estándar, teniendo en cuenta que las muestras aleato-
rias son independientes; esta expresión por su condición es una variable
pivote para la construcción de un intervalo confidencial para μ1 − μ2 .
Se hace esta mención en razón a que existe cierta correspondencia en-
trela estimación
por intervalo y el juzgamiento de hipótesis. En efecto,
(1) (2)
si Tn , Tn es un intervalo confidencial del 100(1 − α)% de confianza
para el parámetro θ, un test razonable de nivel α para el juzgamiento
de la hipótesis nula H0 : θ = θ0 , frente a H1 : θ = θ0 descrito como
(1) (2)
τ : “Rechazar H0 si θ0 ∈ / tn , tn ”, es un test que da origen a uno
equivalente formulado en la forma caracterı́stica. De los intevalos confi-
denciales unilaterales también se pueden deducir tests. Utilizando este
recurso, se pueden derivar los test correspondientes ası́
τA : “Rechazar H0 si zc < zα ”
τB : “Rechazar H0 si zc > z1−α ”
τC : “Rechazar H0 si |zc | > z1− α2 ”
2. Segundo Supuesto: σ12 = σ22 = σ 2 son constantes desconocidas (Ho-

moscedasticidad).
La función de verosimilitud de X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym , depende
particularmente de μ1 , μ2 y σ 2 , dado que el supuesto de homoscedastici-
dad declara que las varianzas son iguales, su expresión es entonces,
L = L(μ1 , μ2 , σ 2 ; x1 , x2 , . . . , xn , y1 , y2 , . . . , ym )
n2 n
(xi −μ1 )2 m2 m
(yj −μ2 )2
1 − 12 i=1 σ2 1 − 12
j=1
= e e σ2
2πσ 2 2πσ 2
Al acoger esta suposición de homoscedasticidad pero desconocidos los valo-
res de las varianzas, los estimadores de μ1 , μ2 y σ 2 son res-pec-ti-va-men-te
1

X n, Y m, (n − 1)S1,n2
+ (m − 1)S2,m2
m+n
ası́ entonces,
⎡ ⎤ m+n
2
⎢ ⎥
⎢ n+m ⎥
sup L = ⎢ ⎥
n+m
⎢ ⎥ e− 2
θ∈Θ ⎣
n
m ⎦
2π (xi − xn )2 + (yj − y m )2
i=1 j=1
En Θ0 , los estimadores máximo-verosı́miles de μ = μ1 = μ2 y σ 2 cuando

δ0 = 0 son
⎛ ⎞
1 ⎝
n m
nX n + mY m
@=
μ Xi + Yj ⎠ =
m + n i=1 j=1
m+n
⎡ ⎤
1 n m
mn
σA2 = ⎣ (Xi − X n )2 + (Yj − X m )2 + (X n − Y m )2 ⎦
m + n i=1 j=1
m + n
de esta forma el sup L corresponde a

θ∈Θ0
⎡ ⎤ m+n
2
⎢ ⎥
⎢ m+n ⎥ n+m
⎢ ⎥ e− 2
⎢ ⎥
⎣
n
m ⎦
2π (xi − xn ) +
2 (yj − y m ) + m+n (xn − y m )
2 mn 2
i=1 j=1
con lo cual
⎡ ⎤− m+n
2
⎢ mn
m+n (xn − ym) 2⎥
λn+m = ⎢
⎣1 +
n m
⎥
⎦
(xi − xn )2 + (yj − y m )2
i=1 j=1
Teniendo en cuenta que

(X n − Y m ) − δ0
• . ∼ N (0, 1)
σ n1 + m 1

n
m
(Xi − X n )2 + (Yj − Y m )2
i=1 j=1
• ∼ χ2 (n + m − 2)
σ2
y dada la independencia de las dos variables aleatorias mencionadas,
(X n −Y m −δ0 )
√1 1
σ n +m
Tc = n m
∼ t(m + n − 2)
(Xi −X n )2 + (Yj −Y m )2
i=1 j=1
σ2 (n+m−2)
Con este complemento, la razón generalizada de verosimilitudes se puede expre-

sar en forma más simple como
n+m
2
1
λn+m = t2c
1+ n+m−2
A partir de ella, se pueden formular los test en la forma siguiente.

τC : “Rechazar H0 si |tc | > t1− α2 (n + m − 2)”
τA : “Rechazar H0 si tc < tα (n + m − 2)”
τB : “Rechazar H0 si tc > t1−α (n + m − 2)”
Es importante hacer notar que la expresión simplificada de Tc es
(X n − Y m ) − δ0
Tc = .
1 1
n + m Sp
donde

n
m
(Xi − X n )2 + (Yj − Y m )2
i=1 j=1
Sp2 =
n+m−2
El supuesto de homoscedasticidad, σ12 = σ22 , puede ser sustentado me-

diante argumentos tomados de la explicación teórica del fenómeno o de
la información detallada fruto de un seguimiento permanente del mismo,
que avalen la no existencia de razones para asegurar que una población es
más variable que la otra. Cuando estos argumentos no están disponibles
o aún contando con ellos, el camino estadı́stico para la adopción de la
homocedasticidad o para descartarla es el juzgamiento de la hipótesis nula
H0 : σ12 = σ22
cuya determinación de tests para tal propósito, bajo Normalidad, será

tratada en el numeral 4.4.2.
Dentro de la construcción de tests bajo Normalidad, el no poder asumir
el supuesto de homoscedasticidad, impide simplificar en forma mayúscula
muchas etapas en la búsqueda de la distribución de una estadı́stica que
soporte el correspondiente test como no ocurre cuando se le asume; para
el juzgamiento de la diferencia de promedios poblacionales, la adopción de
la homoscedasticidad encausa la construcción del test sobre las ideas de
Gosset para obtener un test fundamentado en la distribución de Student,
en la forma como se dedujo en este punto relativo al segundo supuesto.
Esa imposibilidad de la adopción de la homoscedasticidad en el juzgamien-
to de la diferencia de promedios poblacionales, asumiendo el modelo Gaus-
siano, genera un problema importante en la Inferencia estadı́stica y por
consiguiente en la toma de decisiones en la práctica, denominado como el
Problema de Behrens-Fisher, del cual se tiene una solución exacta, basa-
da en Análisis Estadı́stico Secuencial, solución que requiere un tipo de
muestras seleccionadas en etapas, que este texto no aborda por no estar
dentro del propósito del mismo. Se presenta a continuación una solución
aproximada al problema, solución que aparece citada en muchos libros de
Estadı́stica.
3. Tercer Supuesto: σ12 = σ22 constantes desconocidas. (Problema de Behrens-

Fisher)
Dentro de las soluciones, en la actualidad se destaca la solución de Welch.
Esta solución utiliza la siguiente estadı́stica
X n − Y m − δ0
Tc = . 2 2
S1,n S2,m
n + m
Esta estadı́stica no tiene distribución t. Welch propone los test siguientes
τA : “Rechazar H0 si tc < tα (f − 1)”

τB : “Rechazar H0 si tc > t1−α (f − 1)”
τC : “Rechazar H0 si |tc | > t1− α2 (f − 1)”
donde f = min{m, n}. Estos test pueden mejorarse en potencia, escogien-

do f entre min{m, n} y (m + n − 2).
La solución de Welch en este mejoramiento de potencia escoge a f como
el entero más próximo a
s2 s22,m
2
1,n
n + m
f= s2 2 s2 2
1,n 2,m
n m
n−1 + m−1
Como conclusión esta sección 4.3 y como generalización del numeral 4.3.2, asum-
iendo el modelo de Gauss para cada una de las k poblaciones independientes,
de tal manera que la variable que representa a la población j tiene valor esper-
ado μj y desviación estándar σ, j = 1, 2, . . . , k, y siendo Xj1 , Xj2 , . . . , Xjnj ,
la muestra aleatoria de tamaño nj correspondiente a la población j y bajo el
supuesto de homocedasticidad, el procedimiento de juzgamiento de la hipótesis
nula que forma parte del sistema
H0 : μ1 = μ2 = . . . = μk
f rente a
H1 : no todos los promedios poblacionales son iguales
se le conoce como Análisis de varianza a una vı́a, procedimiento tratado inicial-

mente por Fisher en la segunda década del siglo XX. La denominación de este
procedimiento estadı́stico como análisis de varianza, aparentemente sin vincu-
lación con el sentido de la hipótesis planteada, proviene de la expresión de la
estadı́stica que fundamenta el test correspondiente, al tratarse de una separa-
ción de componentes de una varianza, concordante con el término análisis que
significa “Distinción y separación de las partes de un todo hasta llegar a conocer
sus principios o elementos ”. 3
3 Diccionario de la Lengua Española. Real Academia Española. Vigésimasegunda Edición.
2001
Juzgamiento de
H0 : μ1 − μ2 = δ0

H0 : μ1 − μ2 = δ0 H0 : μ1 − μ2 = δ0 H0 : μ1 − μ2 = δ0
H1 : μ1 − μ2 < δ0 H1 : μ1 − μ2 > δ0 H1 : μ1 − μ2 = δ0
No ¿σ12 , σ22 Si
son conocidos?
n − y m ) − δ0
Si t = (x. (xn − ym ) − δ0
¿σ12 = σ22 ? c zc = .
1 1 σ12 σ22
n + m sp n + m
No
(xn − y ) − δ0
tc = . 2 m 2
s1,n s2,m
n + m
Tests Tests Tests

τA : “Rechazar H0 si τA : “Rechazar H0 si τA : “Rechazar H0 si
tc < tα (f − 1)” tc < tα (n + m − 2)” zc < zα ”
τB : “Rechazar H0 si τB : “Rechazar H0 si τB : “Rechazar H0 si
tc > t1−α (f − 1)” tc > t1−α (n + m − 2)” zc > z1−α ”
τC : “Rechazar H0 si τC : “Rechazar H0 si τC : “Rechazar H0 si
|tc | > t1− α2 (f − 1)” |tc | > t1− α2 (n + m − 2)” |zc | > z1− α2 ”
La función de verosimilitud
L = L(μ1 , μ2 , . . . , μk , σ 2 ; x11 , x12 , . . . , x1n1 , . . . , xk1 , xk2 , . . . , xknk )
de las n variables aleatorias X11 , X12 , . . . , X1n1 , . . . , Xk1 , Xk2 , . . . , Xknk , siendo
σ 2 el valor común desconocido de las varianzas de cada población adoptando la
k
homocedasticidad y n = nj , es especı́ficamente
j=1
k nj 2
1 1 xji − μj
L= √ exp −
j=1 i=1
2πσ 2 σ
⎧ ⎫
n
⎨ 1 k nj ⎬
= (2πσ 2 ) 2 exp − 2 (xji − μj )2
⎩ 2σ ⎭
j=1 i=1
con la utilización de esta función se puede establecer que

nj
• La estimación máximo-verosı́mil de μj es 1
nj xji = xj .
i=1

k
nj
• La estimación máximo-verosı́mil de σ 2 es 1
n (xji − xj )2 .
j=1 i=1
⎡ nj
⎤− n2
k
2π (xji −xj )2 n
⎢ j=1 i=1 ⎥
de tal manera que sup L = ⎣ n ⎦ exp − .
Θ 2
Acorde con la hipótesis nula, denotando
6 por μ el valor común7 desconocido
de los promedios de cada población, Θ0 = (μ, σ 2 )|μ ∈ R, σ 2 > 0 , de donde se
pueden establecer los siguientes elementos
• La estimación máximo-verosı́mil del valor común μ bajo la hipótesis nula

nj
es n1 xji = x.
i=1
• La estimación máximo-verosı́mil de σ 2 bajo la hipótesis nula es

1
k nj
n (xji − x)2 .
j=1 i=1
⎡ nj
⎤− n2
k
2π (xji −x)2 n
⎢ j=1 i=1 ⎥
Por lo tanto sup L = ⎣ ⎦ exp − , y en consecuencia
Θ0 2
⎡ ⎤− n2

k
nj
sup L
⎢ (xji − x) ⎥ 2
Θ0 ⎢ j=1 i=1 ⎥
λn = = ⎢ k nj ⎥
sup L ⎣ ⎦
Θ (x ji − xj )2
j=1 i=1

k
nj
Algebraicamente la expresión (xji −x)2 , llamada suma total de cuadrados,
j=1 i=1
puede expresarse como la adición de dos cantidades,

k
k
nj
nj (xj − x)2 + (xji − xj )2
j=1 j=1 i=1
conocidas estas últimas como suma de cuadrados entre grupos (en el lenguaje
del Diseño Experimental, suma de cuadrados entre tratamientos) y suma de
cuadrados de errores respectivamente. Como estas cantidades son calculadas a
partir de los valores observados de las muestras, la suma total de cuadrados es
el numerador de una varianza muestral particular, varianza que se descompone
entonces en dos partes: una varianza entre grupos o tratamientos o intervarianza

y una varianza dentro de los grupos o intravarianza.
⎡ ⎤− n2

k
k
nj
⎢ nj (xj − x) + (xji − xj )
2 2
⎥
⎢ j=1 j=1 i=1 ⎥
λn = ⎢ ⎥
⎣
k nj ⎦
(xji − xj )2
j=1 i=1
sustituyendo
k
nj (xj −x)2
j=1 − n2
k−1 k−1
nj por fc entonces λn = 1+ fc
k
(xji −xj )2
n−k
j=1 i=1
n−k
visto λn de esta manera, los valores pequeños de la razón generalizada de vero-

similitudes son causados por valores grandes de fc , y sólo resta entonces conocer
la distribución de la variable Fc porque ya se manifiesta la forma del test equiv-
alente al test original basado en λn .
En primer lugar, la independencia de las variables aleatorias

k
2
k
nj
2
nj X j − X y Xji − X j
j=1 j=1 i=1
nj
2
está garantizada por la independencia estadı́stica entre X j y Xji − X j .
i=1
En segundo lugar, bajo la hipótesis nula

k 2
nj X j − X
j=1
∼ χ2 (k − 1)
σ 2 (k − 1)

k
nj 2
Xji − X j
j=1 i=1
y ∼ χ2 (n − k)
σ 2 (n − k)
por consiguiente, el cociente Fc tiene distribución F con (k − 1) y (n − k) grados

de libertad.
Para concluir, el test original
τ : “Rechazar H0 si λn < c”
puede reformularse como:
τ : “Rechazar H0 si fc > f1−α ((k − 1), (n − k))”

4.4. JUZGAMIENTO DE HIPÓTESIS SOBRE VARIANZAS, BAJO NORMALIDAD 189
4.4 Juzgamiento de hipótesis sobre varianzas,

bajo Normalidad
4.4.1 Juzgamiento de la hipótesis nula H0 : σ 2 = σ02
Bajo las condiciones establecidas en la parte 4.3.1, página 172, los tres sistemas
que pueden plantearse son
• Sistema A
H0 : σ 2 = σ02
f rente a
H1 : σ 2 < σ02
• Sistema B
H0 : σ 2 = σ02
f rente a
H1 : σ 2 > σ02
• Sistema C
H0 : σ 2 = σ02
f rente a
H1 : σ 2 = σ02
1. Primer Supuesto: μ es una constante conocida.

El juzgamiento de la hipótesis H0 bajo el Sistema B, suponiendo μ cono-
cido, puede llevarse a cabo por medio de un test derivado de lo siguiente,
con θ = σ 2 . Como
n n
1 1
− 2θ (xi −μ)2
L(θ; x1 , x2 , . . . , xn ) = √ √ e i=1
2π θ
n n
1
− 2θ (xi −μ)2 +ln √ 1√
2π θ
=e i=1
entonces considerando c(θ) = − 2θ

1
y la pertenencia a la familia exponencial
de densidades, como c(θ) es decreciente, por lo tanto

n
τB : “Rechazar H0 si (xi − μ)2 > k”
i=1
Este test es un test UMP para H0 en el Sistema B, equivalente a

n
(xi − μ)2
i=1
τB : “Rechazar H0 si χ2c1 = > χ21−α (n)”
σ02
que gráficamente está representado por la figura 4.13
Rechazar H0 χ2 (n)
Figura 4.13: Región crı́tica del test τB
2. Segundo Supuesto: μ es una constante desconocida.

Similarmente, un test para H0 en el Sistema B, cuando μ es deconocido
es

n
(xi − xn )2
i=1
τB : “Rechazar H0 si χ2c2 = > χ21−α (n − 1)”
σ02
Para los Sistemas A y C los test son los siguientes
τA : “Rechazar H0 si χ2c1 < χ2α (n)”

τA : “Rechazar H0 si χ2c2 < χ2α (n − 1)”
según el supuesto que se adopte acerca de μ. Igualmente,
τC : “Rechazar H0 si χ2c1 < χ2 (n) o χ2c1 > χ2δ (n)”

τC : “Rechazar H0 si χ2c2 < χ2 (n − 1) o χ2c2 > χ2δ (n − 1)”
que gráficamente están representados en la figura 4.14 donde α = +(1−δ).
La escogencia de los percentiles χ2 y χ2δ es la misma que la de los percentiles

que minimizan la longitud del intervalo confidencial para σ 2 . La solución
= α2 y δ = 1 − α2 debe evitarse para muestras pequeñas.
Nota. El teorema utilizado para la construcción del test bajo el Sistema B,

permite utilizar el mismo test para juzgar H0 en el sistema siguiente
H0 : σ 2 ≤ σ02
f rente a
H1 : σ 2 > σ02
4.4. JUZGAMIENTO DE HIPÓTESIS SOBRE VARIANZAS, BAJO NORMALIDAD 191
δ
Rechazar H0 Rechazar H0 χ2 (v)
Figura 4.14: Región crı́tica del test τc , con v = n o v = n − 1 según sea el caso
4.4.2 Juzgamiento de homoscedasticidad

El juzgamiento de homoscedasticidad fue tratado en el ejemplo 4.2.2, página
161. Sin embargo para el caso usual referente a dos poblaciones independientes,
corresponde al juzgamiento de la hipótesis nula H0 : σ12 = σ22 . Para tal efecto,
pueden establecerse tres sistemas de hipótesis, a saber
• Sistema A
H0 : σ12 = σ22
f rente a
H1 : σ12 < σ22
• Sistema B
H0 : σ12 = σ22
f rente a
H1 : σ12 > σ22
• Sistema C
H0 : σ12 = σ22
f rente a
H1 : σ12 = σ22
Los test utilizados en el juzgamiento de H0 , en cualquiera de los tres sistemas

están basados en el valor de la estadı́stica
s21
fc =
s22
Juzgamiento de
H0 : σ 2 = σ02

H0 : σ 2 = σ02 H0 : σ 2 = σ02 H0 : σ 2 = σ02
H1 : σ 2 < σ02 H1 : σ 2 > σ02 H1 : σ 2 = σ02

n
n
(xi − xn )2 No ¿El valor de μ se Si (xi − μ)2
i=1 i=1
χ2c2 = asume conocido? χ2c1 =
σ02 σ02
Tests Tests
τA : “Rechazar H0 si τA : “Rechazar H0 si
χ2c2 < χ2α (n − 1)” χ2c1 < χ2α (n)”
τB : “Rechazar H0 si τB : “Rechazar H0 si
χ2c2 > χ2α (n − 1)” χ2c1 > χ2α (n)”
τC : “Rechazar H0 si τC : “Rechazar H0 si
χ2c2 < χ2 (n − 1) o si χ2c1 < χ2 (n) o si
χ2c2 > χ2δ (n − 1)” χ2c1 > χ2δ (n)”
α = + (1 − δ) α = + (1 − δ)
donde Fc ∼ F (n − 1, m − 1) bajo las condiciones del numeral 4.3.2, página 180.

Entonces, los respectivos tests pueden enunciarse como
τA : “Rechazar H0 si fc < fα (n − 1, m − 1)”

τB : “Rechazar H0 si fc > f1−α (n − 1, m − 1)”
τC : “Rechazar H0 si fc < f (n − 1, m − 1) o fc > fδ (n − 1, m − 1)”
Igualmente que en el caso anterior α = +(1−δ). La escogencia de los percentiles

f (n − 1, m − 1), fδ (n − 1, m − 1) que incluye el test τC , es la misma que la de los
percentiles de los intervalos confidenciales para el cociente de varianzas de dos
poblaciones independientes desarrollados en el numeral 3.4.2, página 134. Si los
tamaños de las muestras son relativamente grandes, se pueden usar = α2 = δ.
4.5. JUZGAMIENTO DE PROPORCIONES 193
4.5 Juzgamiento de proporciones

El juzgamiento de proporciones poblacionales es un tema muy común en los
textos de Estadı́stica de todos los niveles, en razón a que muchas afirmaciones
de la cotidianidad, de la actividad industrial, del desarrollo del comercio, de
los quehaceres de la ciencia recurren a porcentajes y por lo tanto su empleo
es muy amplio. El lenguaje común y el especializado han incorporado tasas y
porcentajes con el sentido especı́fico de su campo, para proporcionar un elemento
descriptivo en la obtención de información o conocimiento sobre el tema en
cuestión y su usanza se ha ampliado porque aritméticamente es simple y su
comprensión muy generalizada.
Presentar algunas ideas en el juzgamiento de la cuantı́a de una proporción
poblacional, o porcentaje como ordinalmente se le designa, cuantı́a que gene-
ralmente no es posible determinar para una población particular, constituye el
propósito de esta sección. Se evitan algunos detalles considerados en secciones
anteriores, pues en este punto ya debe ser familiar la estructura y rutinas propias
del juzgamiento de hipótesis, pero a partir de las consideraciones que se realizan
es posible construir con los detalles necesarios los distintos test requeridos.
Para comenzar, el modelo asumido es el modelo de Bernoulli de parámetro
π. La familia de densidades de Bernoulli posee caracterı́sticas especiales, en el
sentido que los teoremas 4.2.3 y 4.2.4, páginas 167 y 168 respectivamente, legi-

n
timan a la estadı́stica Xi como la estadı́stica que fundamenta el juzgamiento
i=1
de la hipótesis nula H0 : π = π0 en el sistema,
H0 : π = π0
f rente a
H1 : π > π0

n
por medio de un test establecido como, τ : “Rechazar H0 si xi > k”.
i=1

n
Bajo la hipótesis nula Xi ∼ Bin(n, π0 ), elegido un nivel del test α, y con
i=1
el ánimo de determinar plenamente el valor de k, puede suceder que

n
n
Pπ0 Xi ≥ k + 1 < α < Pπ0 Xi ≥ k
i=1 i=1
es decir que no se puede determinar un valor de k para el cual el nivel del test
sea exactamente α. En esta situación hay dos soluciones: modificar el valor de
α por un valor menor α , o establecer un test aleatorizado.
n

La primera solución es adoptar el nivel α = Pπ0 Xi ≥ k + 1 . La se-
i=1
gunda solución es establecer una función crı́tica,

⎧
n
⎪
⎪1 si xi ≥ k + 1
⎪
⎪
⎪
⎨ i=1

n
ψ(xn ) = δ si xi = k
⎪
⎪
⎪
⎪
i=1
n
⎪
⎩0 si xi < k
i=1
la probabilidad de éxito δ de la variable auxiliar en el test aleatorizado corres-

ponde a:
n n

α − Pπ0 Xi ≥ k + 1 α − Pπ0 Xi ≥ k + 1
δ= n i=1 n = i=1
n
Pπ0 Xi ≥ k − Pπ0 Xi ≥ k + 1 Pπ0 Xi = k
i=1 i=1 i=1
de tal manera que el tamaño del test será:

n
n α − Pπ Xi ≥ k + 1 n
0
0.Pπ0 Xi < k + i=1 Pπ0 Xi = k
n
i=1 Pπ0 Xi = k i=1
i=1
n

+ 1.Pπ0 Xi ≥ k + 1
i=1

n
n
= α − Pπ0 Xi ≥ k + 1 + Pπ0 Xi ≥ k + 1 = α
i=1 i=1
Consideraciones similares pueden llevarse a cabo para el juzgamiento de la

hipótesis nula H0 : π = π0 en el sistema,
H0 : π = π0
f rente a
H1 : π < π0

n
a través de un test establecido como, τ : “Rechazar H0 si xi < k”, y para el
i=1
juzgamiento de la referida hipótesis nula en el sistema,
H0 : π = π0
f rente a
H1 : π = π0

n
n
por intermedio de un test τ : “Rechazar H0 si xi < k1 o si xi > k2 ”.
i=1 i=1
4.5. JUZGAMIENTO DE PROPORCIONES 195
Recurriendo a otras consideraciones, estas referentes a tamaños de muestra

grandes, las cuales encaminan el desarrollo de los tests más difundidos en el
juzgamiento de un proporción poblacional, se presentan los rasgos generales de
la deducción de los tests correspondientes.
Siendo X1 , X2 , . . . , Xn , una muestra aleatoris de una población con distribu-

n
ción de Bernoulli de parámetro π, la estadı́stica Pn = n1 Xi , la proporción
i=1
1
muestral, es un MLE insesgado para π, y siendo π(1−π) la correspondiente in-
formación de Fisher,
8
n d
(Pn − π) −
→ Z ∼ N (0, 1)
π(1 − π)
con lo cual la hipótesis nula H0 : π = π0 puede juzgarse atendiendo a este

resultado, según alguno de los siguientes sistemas
• Sistema A
H0 : π = π0
f rente a
H1 : π < π0
• Sistema B
H0 : π = π0
f rente a
H1 : π > π0
• Sistema C
H0 : π = π0
f rente a
H1 : π = π0
Basados en la estadı́stica
Pn − π0
Zc = .
π0 (1−π0 )
n
los tests respectivos pueden formularse como
τA :“Rechazar H0 si zc < zα ”
τB :“Rechazar H0 si zc > z1−α ”
τC :“Rechazar H0 si |zc | < z1− α2 ”
El requisito que algunos autores subrayan en la utilización correcta de estos

tests consiste en garantizar que npn > 5 y que n(1 − pn ) > 5.
Por último cuando se desea juzgar la diferencia entre dos proporciones pobla-
cionales correspondientes a dos poblaciones, se considera una muestra aleatoria
X1 , X2 , . . . , Xn , de una población con distribución de Bernoulli de parámetro
π1 y una muestra Y1 , Y2 , . . . , Ym , de una población con distribución de Bernoulli
de parámetro π2 , siendo estas poblaciones estadı́sticamente independientes.
Particularmente si los tamaños de las muestras son relativamente grandes,
los tests para el juzgamiento de la hipótesis nula H0 : π1 − π2 = δ0 , se basan en
la estadı́stica

(1) (2)
Pn − Pm − δ0
ZC = 8
(1) (1) (2) (2)
Pn 1−Pn Pm 1−Pm
n + m
(1) 1
n
(2) 1
m
siendo Pn = n Xi y Pm = m Yj .
i=1 j=1
Si algún sistema enuncia la hipótesis nula como H0 = π1 − π2 = 0, la estadı́stica
apropiada que fundamenta el respectivo test es
(1) (2)
Pn − Pm
ZC = .
P (1 − P ) n1 + 1
m
(1) (2)
nPn + mPm
siendo P = , entendida esta estadı́stica como un estimador del
n+m
valor común π = π1 = π2 .
4.6 Ejemplos numéricos de aplicación

Ejemplo 4.6.1. El ı́ndice de Fishman es un indicador de la madurez esquelética
de adolescentes y preadolescentes. Dentro del estudio epidemiológico de salud y
maloclusión dental realizado por la Facultad de Odontologı́a de la Universidad
Nacional de Colombia y la Caja de compensación familiar COLSUBSIDIO, en-
tre 1994 y 1996 y basado en una muestra de 4724 pacientes de su antigua clı́nica
infantil, se comparó la edad cronológica de niños y niñas con igual maduración
esquelética. Particularmente para un análisis puntual, se consideró una sub-
muestra de 64 niñas con ı́ndice igual a siete que registró un promedio de edad
de 12.6 años con una desviación estándar de 1.21 años, y paralelamente una
submuestra de 51 niños, con ı́ndice igual a siete presentó un promedio de edad
de 14.4 años con una desviación estándar de un año.
Bajo el modelo Gaussiano, que mostró ser apto para representar la edad cronoló-
gica en este nivel de maduración, ¿es razonable afirmar que el promedio de edad
en la cual los niños y las niñas alcanzan un ı́ndice de maduración esquelética de
siete, difiere según el género?.
En primer lugar, ¿es pertinente adoptar la homoscedasticidad?. Dado que
4.6. EJEMPLOS NUMÉRICOS DE APLICACIÓN 197
s2
s1 = 1.21, s2 = 1 y fc = s12 = 1.4641, el valor p dentro del juzgamiento de
2
la homoscedasticidad es 0.0811587, teniendo en cuenta que Fc ∼ F (63, 50),
valor que adoptando α = 0.05, permite descartar la homoscedasticidad como
supuesto de juzgamiento de H0 : μ1 = μ2 (el promedio de edad en la cual los
niños y las niñas alcanzan un ı́ndice de maduración de siete es el mismo) dentro
del sistema
H0 : μ1 = μ2
f rente a
H1 : μ1 = μ2
De esta manera se acude a la solución de Welch para poder contar con los
argumentos necesarios para sustentar la afirmación. Dado que
xn − y m 12.6 − 14.4
tc = . =. = −8.6928
s21,n s22,m 1.4641 1
+ 64 + 51
n m
su valor absoluto supera ampliamente al percentil 0.975 de una distribución t

con 112 grados de libertad, 1.98137059, porque
2
s21,n s22,m 1.4641
1 2
n + m +
64 51
f= s2
2
s2
2 = 2 2 = 112.83397
1,n 2,m ( 1.4641
64 ) ( 511 )
n m
63 + 50
n−1 + m−1
En consecuencia, hay la suficiente evidencia estadı́stica para rechazar la hipótesis

H0 : μ1 = μ2 , es decir que la información contenida en la muestra respalda
cuantitativamente la afimación motivada por este análisis puntual.
Ejemplo 4.6.2. El estrés afecta de manera importantela producción de leche

en el ganado vacuno. Las causas que lo producen son de distinta naturaleza,
pero una de ellas parece ser la temperatura del ambiente, pues las reses tienden
a reducir la ingestión de alimento cuando la temperatura aumenta y por con-
siguiente se ve reducida la producción láctea. Para evaluar esta circunstancia,
se construyeron establos con cubierta de material aislante del calor para ubicar
durante un mes 47 vacas Holstein de las mismas caracterı́sticas que 38 vacas
mantenidas en los potreros, durante el mismo perı́odo, cuya protección solar
fueron los árboles y arbustos presentes en el lugar. Del acopio de información
de la producción de leche de cada una de las vacas, se tiene lo siguiente:
El promedio de producción mensual de las 47 vacas aisladas del calor fue de 597
lt con una desviación estándar de 36 lt, mientras que el promedio de producción
de leche del otro grupo de vacas fue de 360 lt con una desviación estándar de 45
lt. ¿Independientemente de la producción lechera, modelada apropiadamente de
forma Normal según el test de Lilliefors, se puede afirmar que de todas maneras
la variabilidad de la producción es prácticamente igual en las dos condiciones
de temperatura?.
Además de preguntarse si ante las condiciones de temperatura del ambiente se

modifica la producción lechera, lo cual puede analizarse de manera similar al
ejemplo anterior, el investigador centra su atención sobre la variabilidad de la
producción. La hipótesis de que el efecto de la temperatura no altera la varia-
bilidad de la producción, H0 : σ12 = σ22 , al manifestarse el sentido de aumento o
disminución de la misma, se juzga en el sistema
H0 : σ12 = σ22
f rente a
H1 : σ12 = σ22
s2 2
Entonces fc = s12 = (36)
(45)2 = 0.64. La solución corriente en la determinación de
2
los percentiles permite establecer para este caso que f0.025 (46, 37) = 0.54323124
y que f0.975 (46, 37) = 1.8880067, con lo cual
f0.025 (46, 37) < fc < f0.975 (46, 37)
y de allı́ concluir que no hay la suficiente evidencia estadı́stica para rechazar la

homoscedasticidad, con lo cual se puede asegurar que bajo las dos condiciones
de temperatura en las cuales permanecen las reses, la variabilidad no se modifica
de una manera notable.
4.7 Tamaño de la muestra

El tamaño de la muestra tiene consecuencias ostensibles en la toma de decisiones,
ası́ como las tiene en la calidad de las estimaciones. Estimar un parámetro es
una actividad que persigue fines distintos a los propios del juzgamiento de una
afirmación acerca de él, y por lo tanto la disposición de lo necesario para el logro
de los fines, estrictamente no es la misma. Son dos procesos entroncados pero
distintos en sus efectos o trascendencias. El tamaño de la muestra que se utiliza
con la finalidad de estimar parámetros no necesariamente es el tamaño apto para
el juzgamiento de hipótesis, o contrariamente, un tamaño elegido para juzgar
una hipótesis no propiamente es el tamaño adecuado para estimar el parámetro
correspondiente.
El tema del tamaño de la muestra es un tema que induce la reflexión en los
teóricos y la indagación de su magnitud en los usuarios de la Estadı́stica; corres-
ponde a un tema de gran amplitud que contiene muchas singularidades y por
supuesto no puede ser abordado por un texto que tiene otra mira. Reiterando lo
expresado en el Capı́tulo 3, sólo se presentan unas minúsculas consideraciones,
sin mayor pretensión, sobre dos tamaños de muestra simple bajo la orientación
del modelo Gaussiano.
Como el tamaño de la muestra tiene efectos directos sobre los errores del tipo
I y del tipo II, la función de potencia asiste su determinación. Usualmente se
suele asumir un valor de α deseado y a partir de él ajustar un tamaño muestral
para obtener un pretendido valor de β.
4.7. TAMAÑO DE LA MUESTRA 199
Particularmente el juzgamiento de la hipótesis nula H0 : μ = μ0 en el Sistema

A, asumiendo Normalidad y varianza conocida, requiere un tamaño de muestra
especı́fico. Bajo las consideraciones anteriores, el test correspondiente de tamaño
α, como se dedujo en la subsección 4.3.1, es
√
n(xn − μ0 )
τ : “Rechazar H0 si < zα ”
σ
test que puede enunciarse igualmente como
σzα
τ : “Rechazar H0 si xn < μ0 + √ ”
n
Si μ fuese igual a μ∗ (μ∗ = μ0 ), la probabilidad del error del tipo II serı́a por
consiguiente,

σzα
β = Pμ∗ X n ≥ μ0 + √
n
√ √
∗
n Xn − μ n(μ0 − μ∗ )
= Pμ∗ ≥ + zα
σ σ
por lo tanto
√
n(μ0 − μ∗ )
+ zα = z1−β
σ
y como zα = −z1−α , entonces
√
n(μ0 − μ∗ )
− z1−α = z1−β
σ
de donde finalmente,
2
σ (z1−α + z1−β )
n=
μ0 − μ∗
tamaño idéntico al requerido para el juzgamiento de la hipótesis nula

H0 : μ = μ0 en el Sistema B. La determinación de μ∗ no es del todo arbitraria,
como puede ser la de α o la de β. Concretamente la pretensión del menor
riesgo en la decisión se materializa en la adopción de probabilidades pequeñas
para los errores del tipo I y II; pero la elección de μ∗ que acompaña las re-
flexiones alrededor del error del tipo II, que correponda al valor de β deseado,
debe responder a razones de ı́ndole de sensibilidad del test. Fijar el valor de μ∗
cercano a μ0 , permaneciendo constantes los valores de la desviación estándar
y los percentiles señalados, tiene un efecto extraordinario en el tamaño de la
muestra, pues lo magnifica sobremanera. En este sentido, la respuesta a la pre-
gunta: ¿Qué tan sensible debe ser el test?, es la única vı́a que proporciona los
elementos y argumentos para la escogencia de μ∗ .
Otra situación particular la constituye el establecimiento del tamaño de

muestra adecuado para el juzgamiento de la hipótesis nula H0 : μ1 − μ2 = δ0 ,
en el Sistema B. Al igual que el caso anterior se asume el modelo Gaussiano y
adicionalmente el conocimiento de las varianzas poblacionales σ12 y σ22 .
El test τB desarrollado en el numeral 4.3.2, considerando m = n puede
formularse de otra manera como
8
σ12 + σ22
τB : “Rechazar H0 si (xn − yn ) > δ0 + z1−α ”
n
Si μ1 − μ2 fuese igual a δ ∗ , la probabillidad del error del tipo II serı́a en conse-
cuencia,
8
σ12 + σ22
β = Pδ∗ X n − Y n ≤ δ0 + z1−α
n
⎡ ⎤
X n − Y n − δ∗ δ − δ ∗
= Pδ∗ ⎣ + z1−α ⎦
0
. ≤.
σ12 +σ22 σ12 +σ22
n n
con lo cual, se puede afirmar que

δ0 − δ ∗
. + z1−α = zβ , y debido a que zβ = −z1−β entonces
2
σ1 +σ22
n
δ0 − δ ∗
. + z1−α = −z1−β , luego
σ12 +σ22
n
δ ∗ − δ0
. = z1−α + z1−β , con lo cual se deduce que
2 2
σ1 +σ2
n
(σ12 + σ22 )(z1−α + z1−β )2
m=n=
(δ ∗ − δ0 )2
Cada una de las dos muestras debe entonces contar con n unidades para cumplir
cabalmente con las exigencias relacionadas con las probabilidades de los errores
en la decisión. Esta expresión es igualmente válida para el cálculo del número de
unidades estadı́sticas que deben seleccionarse en cada una de las dos poblaciones,
para el caso del juzgamiento de la hipótesis nula H0 : μ1 −μ2 = δ0 , en el Sistema
A. La sensibilidad del test, como en el caso anterior, es la determinante del valor
δ∗.
4.8 Juzgamiento secuencial

Como formas especiales de juzgamiento de hipótesis, dentro de la temática cono-
cida como Análisis Secuencial que incluye también estimación de parámetros, se
encuentran procedimientos basados en tests llamados tests secuenciales surgidos
4.8. JUZGAMIENTO SECUENCIAL 201
de la idea de Wald, denominada originalmente como tests secuenciales de razón

de probabilidad (SPRT). Estas formas especiales de juzgamiento de hipótesis,
utilizan explı́citamente tanto la probabilidad del error del tipo I como la proba-
bilidad del error del tipo II fijando de antemano sus valores, de tal manera que
el tamaño de la muestra no está predeterminado sino que ahora depende de α y
β y la decisión final está sujeta a decisiones previas tomadas en pasos consecu-
tivos dentro del proceso. En términos generales un test secuencial requiere de
menor número de observaciones muestrales que un test basado en una muestra
aleatoria de tamaño fijo.
Como punto de partida en la construcción del concepto de juzgamiento se-
cuencial de hipótesis, se presenta la siguiente definición inicial que detalla la idea
de una clase particular de tests secuenciales, reconocida como tests secuenciales
de razón de verosimilitudes.
Definición 4.8.1. Siendo X1 , X2 , . . . , Xj una muestra aleatoria de tamaño j
de una población con función de densidad fX (x, θ), fijando los valores κ0 y κ1
tales que κ0 < κ1 , estableciendo el sistema de hipótesis
H0 : fX (x, θ) = fX (x, θ0 )
f rente a
H1 : fX (x, θ) = fX (x, θ1 )
y denotando la razón de verosimilitudes λj , para j = 1, 2, . . . , como
)
j
fX (x, θ0 )
L(θ0 ; x1 , x2 , . . . , xj )
λj = = i=1
L(θ1 ; x1 , x2 , . . . , xj ) )
j
fX (x, θ1 )
i=1
al test descrito por
τ :“Rechazar H0 en el paso j si λj ≤ κ0 ; no rechazar H0 si

λj ≥ κ1 ; incluir la observación xj+1 y calcular la nueva
razón de verosimilitudes λj+1 para continuar en el paso
j + 1 si κ0 < λj < κ1 ”
se le denomina test secuencial de razón de verosimilitudes.

La región crı́tica Cτ de un test secuencial τ está conformada por la unión de
las regiones Cτ,n a saber:
∞
B
Cτ = Cτ,n
n=1
6 7
donde la región Cτ,n = xn |λj ∈ (κ0 , κ1 ), λn ≤ κ0 , j = 1, 2, . . . , n − 1 describe
el subconjunto del espacio de las observaciones, cuyos elementos facultan al test
secuencial para rechazar la hipótesis nula en el sistema de hipótesis establecido.
La región de aceptación del test secuencial τ , denotada por Aτ , de manera

similar a su región crı́tica es
∞
B
Aτ = Aτ,n
n=1
6 7
siendo Aτ,n = xn |λj ∈ (κ0 , κ1 ), λn ≥ κ1 , j = 1, 2, . . . , n − 1 .
Como se comentó al iniciar la sección 4.8, el juzgamiento secuencial establece
previamente los valores de α y β manejando ası́ simultáneamente los errores del
tipo I y del tipo II y la delimitación del tamaño de la muestra sujeta a esas
determinaciones previas. En consecuencia,
∞ n
α= fX (xi , θ0 )dx1 dx2 · · · dxn
n=1 Cτ,n i=1
∞ n
β= fX (xi , θ1 )dx1 dx2 · · · dxn
n=1 Aτ,n i=1
Como α y β han sido establecidos de antemano, por lo tanto los conjuntos Aτ,n
y Cτ,n no están totalmente especificados y requieren para su determinación
de los valores de las constantes κ0 y κ1 , valores que definen plenamente el test
secuencial. Entonces el paso siguiente consiste en la concreción de dichos valores,
para los cuales el teorema siguiente facilita una aproximación.
Teorema 4.8.1. Definidos los tamaños de los errores α y β, los valores κ0 y
κ1 , que definen un test secuencial τ , pueden aproximarse mediante
α 1−α
κ0 ≈ y κ1 ≈
1−β β
Teorema 4.8.2. Definidos los tamaños de los errores α y β, y aproximados los
valores κ0 y κ1 , por κ∗0 = 1−β
α
y κ∗1 = 1−α
β respectivamente, los tamaños α∗ y
∗ ∗ ∗
β correspondientes a los valores por κ0 y κ1 , son tales que
α∗ + β ∗ < α + β
Ejemplo 4.8.1. Sea X1 , X2 , . . . , Xn una muestra aletoria de tamaño n, n un
valor no prefijado, de una población con distribución de Bernoulli de parámetro
θ. Un test secuencial τ para el juzgamiento de la hipótesis H0 : θ = θ0 en el
sistema de hipótesis simples
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
habiendo definido previamente α y β, puede formularse en los siguientes términos.
Definida la razón de verosimilitudes
)
j
θ0xi (1 − θ0 )1−xi j x j
i=1 θ0 (1 − θ1 ) i=1 i 1 − θ0
λj = j =
) xi θ1 (1 − θ0 ) 1 − θ1
θ1 (1 − θ1 )1−xi
i=1
el test secuencial τ rechaza H0 : θ = θ0 si λj ≤ κ0 . Al utilizar la aproximación

derivada anteriormente, el test rechaza H0 si λj ≤ 1−βα
, es decir si
j
xi j
θ0 (1 − θ1 ) i=1 α 1 − θ1
≤
θ1 (1 − θ0 ) 1 − β 1 − θ0
θ0 (1−θ1 )
asumiendo que θ0 < θ1 , entonces 1−θ 1
1−θ0 < 1 y θ1 (1−θ0 ) < 1, luego el test secuencial
rechaza la hipótesis nula H0 : θ = θ0 , si
j
θ1 (1 − θ0 ) 1−β 1 − θ0
ln xi ≥ ln + j ln
θ0 (1 − θ1 ) i=1 α 1 − θ1
Denotando por

ln 1−β α ln 1−θ
1−θ1
0
a1 = y por b=
θ1 (1−θ0 ) θ1 (1−θ0 )
ln θ0 (1−θ1 ) ln θ0 (1−θ1 )
entonces el test rechaza la hipótesis nula si

j
xi ≥ a1 + bj
i=1
De otra parte, el test secuencial no rechaza la hipótesis nula, si λj ≥ κ1 ; igual-

mente que al utilizar la aproximación derivada anteriormente, el test no rechaza
H0 si λj ≥ 1−α
β , es decir si
j
xi j
θ0 (1 − θ1 ) i=1 1 − α 1 − θ1
≥
θ1 (1 − θ0 ) β 1 − θ0
Denotando por

− ln 1−α β
a0 =
ln θθ10 (1−θ 0)
(1−θ1 )
entonces el test no rechaza la hipótesis nula si

j
xi ≤ a0 + bj
i=1
En sı́ntesis, el test secuencial se puede formular de manera simplificada como

j
τ :“En el paso j rechazar H0 si xi ≥ a1 + bj; no rechazar H0
i=1

j
en el paso j si xi ≤ a0 + bj ; incluir la observación xj+1 para
i=1

j+1
calcular el nuevo valor xi y continuar en el paso j + 1 si
i=1

j
a0 + bj < xi < a1 + bj”
i=1
De manera gráfica puede entenderse el test como lo muestra la figura 4.16.

j
xi •
i=1 •
•
•
Rechazar H0 •
•
• •
• •
• •
• Continuar •
•
•
• No rechazar H0
•
•
1 2 3 4 5 6 7 8 9 10 j
Figura 4.16: Representación del test secuencial del ejemplo 4.8.1
Ejemplo 4.8.2. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de tamaño n, n

un valor no prefijado, de una población con distribución Gaussiana de valor
esperado θ y varianza σ 2 conocida. Un test secuencial τ para el juzgamiento de
la hipótesis H0 : θ = μ0 en el sistema de hipótesis simples
H0 : θ = μ0
f rente a
H1 : θ = μ0 + cσ
siendo c una constante conocida y definidos previamente α y β, puede formularse

en los siguientes términos.
En primer lugar,
j
1 j
λj = exp (xi − μ0 − cσ)2 − (xi − μ0 )2
2σ 2 i=1 i=1
El test secuencial τ rechaza H0 : θ = μ0 , si λj ≤ κ0 , que al utilizar la aproxi-

mación obtenida anteriormente, el test rechaza H0 si λj ≤ 1−βα
, es decir si

1
j
j
α
exp (xi − μ0 − cσ) −
2
(xi − μ0 )
2
≤
2σ 2 i=1 i=1
1−β
o equivalentemente, rechazar la hipótesis nula si

j
(xi − μ0 ) 1 1−α c
≥ − ln +j
i=1
σ c β 2
Por otra parte, el test secuencial no rechaza la hipótesis nula, si λj ≥ κ1 ,

igualmente que al utilizar la aproximación obtenida anteriormente, el test no
rechaza H0 si λj ≥ 1−α
β , es decir si

j
(xi − μ0 ) 1 1−α c
≤ − ln +j
i=1
σ c β 2
Recapitulando, el test secuencial se puede formular de manera simplificada como

j
(xi − μ0 )
1 α c
τ :“En el paso j rechazar H0 si ≥ − ln +j ;
i=1
σ c 1 − β 2
(xi − μ0 )
j
1 1−α c
no rechazarla si ≤ − ln + j ; calcular el
i=1
σ c β 2

j+1
(xi − μ0 )
valor para continuar en el paso j + 1 si
i=1
σ

j
(xi − μ0 ) 1 α c 1 1−α c
∈ − ln + j , − ln +j ”
i=1
σ c 1−β 2 c β 2
El tamaño de la muestra que siempre ha sido un interrogante mayúsculo,

en el juzgamiento secuencial tiene un sentido singular. Como la decisión de
rechazar o no rechazar la hipótesis nula puede ser pronta es decir tomada con
muy pocas unidades observadas, pero también tardı́a después de haber obser-
vado un número considerable de unidades, entonces el interrogante cambia de
¿cuál será el número de unidades que se debe elegir?, a ¿cuántas unidades en
promedio se deben elegir?, puesto que el tamaño de la muestra final como no

está predeterminado ya no es un número fijo sino variable porque depende de
λj y precisamente para estos precedimientos de tipo secuencial se asume como
una variable aleatoria, denotada como N .
En términos de la definción 4.8.1 se puede demostrar que tanto Eθ0 [N ] como
Eθ1 [N ] son finitos. A través de la llamada ecuación de Wald es posible establecer
aproximaciones a estos valores esperados del tamaño de muestra.
Teorema 4.8.3 (Ecuación de Wald). Si la sucesión Y1 , Y2 , . . . , Yn , . . . , es
una sucesión de variables aleatorias independientes e idénticamente distribuidas,
tales que E[|Yi |] y E[Yi ] = η son finitos, y si N es una variable aleatoria cuyo
recorrido es el conjunto de los naturales y cuyos valores n, dependen de las
variables Y1 , Y2 , . . . , Yn , entonces
N

E Yi = ηE[N ]
i=1

fX (xi ,θ0 )
Efectuando la sustitución yi = ln fX (xi ,θ1 ) , i = 1, 2, 3, . . . , entonces la

j
razón de verosimilitudes λj se puede expresar como λj = yi . De esta manera
i=1
el test secuencial se puede enunciar como

j
τ :“Rechazar H0 : θ = θ0 , si yi ≤ ln κ0 , no rechazar H0 : θ = θ0 ,
i=1

j
si yi ≥ ln κ1 , . . . ; incluir la observación yj+1 para calcular la
i=1

j+1
nueva razón de verosimilitudes yi , para continuar en el paso
i=1

j
j + 1 si ln κ0 < yi < ln κ1 ”
i=1
Como el tamaño de muestra no está prefijado, y sus valores considerados como

observaciones de la variable aleatoria
N N , cuando
el test secuencial conduce a
N
rechazar la hipótesis nula, P Yi ≤ ln κ0 = 1 y Yi tiende a tomar va-
i=1 i=1
Ncercanos a ln κ0 y cuando
lores el test conduce a no rechazar la hipótesis nula
N
P Yi ≥ ln κ1 = 1 y Yi tiende a tomar valores cercanos a ln κ1 . Bajo
i=1 N
i=1 N

estas consideraciones, Eθ0 Yi ≈ ln κ0 e igualmente Eθ1 Yi ≈ ln κ1 , ası́
N i=1 i=1

entonces E Yi ≈ r ln κ0 + (1 − r) ln κ1 siendo r la probabilidad de rechazar
i=1
la hipótesis nula.
Usando la ecuación de Wald el tamaño de muestra esperado

N

E Yi
i=1
E[N ] =
η
de tal manera que su valor puede aproximarse como
r ln κ0 + (1 − r) ln κ1
E[N ] ≈
η
luego

α ln κ0 + (1 − α) ln κ1 α ln α
1−β + (1 − α) ln 1−α
β
1. Eθ0 [N ] ≈ ≈
Eθ0 [Yi ] Eθ0 [Yi ]

(1 − β) ln κ0 + β ln κ1 (1 − β) ln 1−β
α
+ β ln 1−α
β
2. Eθ1 [N ] ≈ ≈
Eθ1 [Yi ] Eθ1 [Yi ]
Ejemplo 4.8.3. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población
con distribución Gaussiana de valor esperado θ y varianza conocida σ 2 . Deter-
minar el tamaño de la muestra requerido para el juzgamiento de la hipótesis
nula H0 , en el sistema de hipótesis:
H0 : θ = 75
f rente a
H1 : θ = 80
bajo las siguientes condiciones: α = 0.01, β = 0.05, σ 2 = 25. Igualmente

determinar los tamaños de muestra esperados si el test que se va utilizar es un
test secuencial.
El test τ : “Rechazar H0 si xn > c” es un test equivalente al test de razón
simple de verosimilitudes. Entonces
√ √

n(X n − 75) n(c − 75)
Pθ=75 X n > c = 0.01 = Pθ=75 >
5 5
√ √

n(X n − 80) n(c − 80)
Pθ=80 X n < c = 0.05 = Pθ=80 <
5 5
luego
√ √
n(c − 75) n(c − 80)
Φ = 0.99 y Φ = 0.05
5 5
es decir
√ √
n(c − 75) n(c − 80)
= z0.99 = 2.326347 y = z0.05 = −1.64485348
5 5
√
de donde se deduce que n = 3.97120048, entonces n = 15.7704332, es decir
n = 16. En general si el sistema de hipótesis se formula como
H0 : θ = μ0
f rente a
H1 : θ = μ1
siendo μ0 < μ1 ,

fX (xi , μ0 ) 1

yi = ln , i = 1, 2, 3, . . . , yi = − 2 (μ20 − μ21 ) − 2xi (μ0 − μ1 )
fX (xi , μ1 ) 2σ
luego
1
Eμ0 [Yi ] = (μ1 − μ0 )2
2σ 2
1
Eμ1 [Yi ] = − 2 (μ1 − μ0 )2
2σ
1
Para el caso particular μ0 = 75, μ1 = 80, σ 2 = 25, Eθ=75 [Yi ] = 2,
Eθ=80 [Yi ] = − 21 , α = 0.01, β = 0.05, entonces

α 1−α
Eθ0 [N ] ≈ 2 α ln + (1 − α) ln = 5.8206 ≈ 6
1−β β

α 1−α
Eθ1 [N ] ≈ −2 (1 − β) ln + β ln = 8.3538 ≈ 9
1−β β
En general esta propiedad de necesitar un tamaño esperado de la muestra menor
al tamaño de la muestra que requieren los tests que deben determinar previa-
mente el citado tamaño, es una propiedad que caracteriza a los tests secuenciales.
Terminada esta breve presentación de la idea central de un test secuencial,
se continua con la siguiente sección dedicada al juzgamiento del ajuste.
4.9 Juzgamiento del ajuste

Constituyendo distintas formas de teorizar y de aplicar conceptos, posiciones que
no rivalizan dentro de una concepción unitaria de la Estadı́stica, algunas áreas
de la Estadı́stica prescinden de los modelos de probabilidad mientras que otras,
como la concepción Bayesiana, extienden su tarea. Pero indiscutiblemente a la
esencia misma de la Inferencia estadı́stica le son inherentes los modelos proba-
bilı́sticos; por ello en reiteradas ocasiones este texto se ha referido al modelo de
probabilidad elegido, como la manera propia de representar el comportamien-
to de una variable y más especı́ficamente para representarlo en la acepción de
población.
A partir de la elección de un modelo se buscan o evalúan estadı́sticas para
su certificación como estimadores, se construyen buenos intervalos confiden-
ciales para alguna función del parámetro o para sus componentes, se apoya el
4.9. JUZGAMIENTO DEL AJUSTE 209
juzgamiento de una hipótesis relativa precisamente al modelo elegido. ¿Pero,

para un caso particular, cuál debe ser el modelo adecuado?.
Por supuesto que hay innumerables distribuciones estadı́sticas que pueden
servir de modelo para representar una población especı́fica; pero por tratarse
de una tarea de adopción de un paradigma lo más fiel a la realidad en estudio,
la elección debe responder tanto a razones estadı́sticas como a argumentos no
estadı́sticos. La tradición de un modelo para representar una variable puede
ser un argumento importante, porque permite la comparación de resultados de
distintas investigaciones o estudios, pero no siempre debe ser el único argumento;
indiscutiblemente en los detalles del conocimiento del fenómeno dentro del cual
se modela una variable se encuentran argumentos de mayor significación para
señalar a un modelo en particular.
Pero al lado de razones propias de la naturaleza del fenómeno, hay instru-
mentos estadı́sticos que permiten valorar la aptitud del modelo de ser emulado
por la información disponible en la muestra. Se trata de un variado repertorio
de procedimientos bajo la denominación de bondad del ajuste, construidos sobre
diversos puntos de vista. El lector encontrará una profusa bibliografı́a sobre
el ajuste a modelos probabilı́sticos, principalmente al modelo Gaussiano, cono-
cido como pruebas de Normalidad . Este texto sólamente introduce las ideas
pertinentes al tema por medio de los tests, de Pearson, como uno de los pro-
cedimientos más tradicionales para el examen de la calidad del ajuste y el test
de Kolmogorov-Smirnov. Sin embargo es necesario mencionar la existencia de
tests como los de Lilliefors, el test de Normalidad de Anderson-Darling, pruebas
especiales para el juzgamiento de la Normalidad como la de Shapiro-Wilk o la de
Martinez-Iglewics, que poseen propiedades especiales y las hacen en cierta forma
más demandadas, tests entre otros que el lector podrá estudiar y profundizar
en un curso de Estadı́stica no paramétrica principalmente.
4.9.1 Juzgamiento del ajuste por el método de Pearson

Propuesta a principio del siglo XX por Pearson, es la forma pionera de los tests
de juzgamientos del ajuste, aún cuando un concepto paralelo al tema venı́a
desarrollándose en el siglo anterior: la estimación de una función de densidad.
Para dar inicio a las consideraciones del juzgamiento del ajuste, se fija una
partición del recorrido de la variable que va a ser representada por la variable
aleatoria X, asumida como modelo para la población, partición constituida por
k clases disyuntas y se considera además una muestra aleatoria X1 , X2 , . . . , Xn ,
de tamaño n de una población cuya función de densidad no se conoce.
En palabras muy concretas, la decisión frente a la elección de un modelo
propuesto, corresponde al juzgamiento de la hipótesis: “el modelo candida-
to interpreta adecuadamente el comportamiento poblacional”, hipótesis que se
traduce en la mayorı́a de las veces a través de la función de distribución como
H0 : FX (x) = F0 (x, θ) para todo x, frente a alguna hipótesis alterna apropiada.
Siendo Nj la variable que contabiliza el número de observaciones mues-
trales que pertenecen a la j-ésima clase cj , j = 1, 2, . . . , k, el vector aleatorio
V = (N1 , N2 , . . . , Nk ) tiene distribución multinomial con parámetro

k
θ = (π1 , π2 , . . . , πk ) cuyos componentes son tales que πj = 1, y por otra
j=1

k
parte nj = n, nj ∈ {0, 1, . . . , n}. En otros términos, que su función de
j=1
densidad es:
P [V = v = (n1 , n2 , . . . , nk )] = P [N1 = n1 , N2 = n2 , . . . , Nk = nk ]
n
n! n
= πj j
)
k
nj ! i=1
j=1
El j-ésimo componente del vector θ, πj , denota la probabilidad de que una

observación muestral pertenezca a la clase j, probabilidad que se calcula por
supuesto por medio del modelo en consideración. De esta manera el sistema de
hipótesis que incluye la hipótesis nula reformulada puede plantearse como
H0 : πj = πj0 , j = 1, 2, . . . , k
f rente a
H1 : πj = πj0 , j = 1, 2, . . . , k
Ası́ entonces el test de razón generalizada de verosimilitudes será

k
nj
πj0
τ : “Rechazar H0 si λn = nn <c”
j=1
nj
test que al contar con un tamaño de muestra suficientemente grande, en conso-

nancia con el enunciado del teorema 4.2.2 página 161, puede enunciarse como
⎡ nj ⎤
k
πj0
τ : “Rechazar H0 si − 2 ln ⎣nn ⎦ > χ21−α (k − 1) ”
j=1
n j
La idea de Pearson, anterior a la existencia de conceptos como la razón genera-

lizada de verosimilitudes, es la de cotejar la frecuencia Nj , denominada j-ésima
frecuencia observada con la frecuencia nπj0 conocida como j-ésima frecuencia
esperada, porque bajo la adopción del modelo, E[Nj ] = nπj0 . Pearson sintetiza
su idea en la estadı́stica
k
(Nj − nπj0 )2
j=1
nπj0
pues valores pequeños de ella se constituyen en argumentos a favor de la hipótesis

nula, que en general se le entiende como ajuste, mientras que los valores grandes
son evidencias estadı́sticas de no coherencia con el modelo, es decir de no ajuste.
La Estadı́stica de Pearson converge en distribución a una variable aletoria con
distribución Ji-cuadrado con (k − 1) grados de libertad, luego la adopción del

modelo se desecha si
k
(Nj − nπj0 )2
0 > χ21−α (k − 1)
j=1
nπj
Ejemplo 4.9.1. Como preparación a la evaluación del ajuste al modelo Uni-

forme en el intervalo (0, 1) de una variable que toma valores en el mismo inter-
valo, se establece una partición que por comodidad puede consistir
de jsubinter-

valos de igual amplitud; es decir, que el subintervalo j-ésimo es j−1
k , k , de tal
manera que
kj
0 1
πj = dx = , j = 1, 2, . . . , k
j−1
k
k
En segundo lugar se considera una muestra aleatoria X1 , X2 , . . . , Xn , de tamaño
n de una población Uniforme en el intervalo (0, 1), y a partir de ella se determi-
na cada una de las variables Nj , tal como se señaló anteriormente, con lo cual
se establece la Estadı́stica de Pearson.
De manera particular, la proporción de la prima legal que el asalariado dedica a
pagar obligaciones económicas contraı́das anteriormente, es una de las variables
de interés para un estudio sociológico, de cuyos resultados se extrae la tabla 4.3,
basada en los resultados de una entrevista a 950 empleados del sector manufac-
turero.
Porcentaje Número de
dedicado Pacientes
Más de hasta
0 20 162
20 40 210
40 60 194
60 80 186
80 100 198
Total 950
Tabla 4.3: Distribución del número de empleados según el porcentaje de la

prima que dedican al pago de sus obligaciones económicas adquiridas
Los teóricos sociales encargados de la conducción del estudio no encuentran ra-

zones especiales para afirmar que la proporción de la prima dedicada a cubrir
obligaciones económicas contraı́das, tenga una distribución con algún sesgo o
que tenga un apuntamiento especial, por lo tanto encuentran razonable el uso
del modelo Uniforme para describir rasgos de este aspecto de los empleados.
La tabla 4.4 presenta tanto las frecuencias observadas y esperadas como los
sumandos para la determinación del valor de la Estadı́stica de Pearson, deriva-
dos de la información precedente.
(nj − npi0j )2
j Clase j nj nπj0
npi0j
1 [0, 0.2] 174 190 1.34736842
2 (0.2, 0.4] 198 190 0.33684211
3 (0.4, 0.6] 194 190 0.08421053
4 (0.6, 0.8] 186 190 0.08421053
5 (0.8, 1.0] 198 190 0.33684211
Total 2.18947368
Tabla 4.4: Elementos para el cálculo del valor de la Estadı́stica de Pearson

correspondiente al ejemplo 4.9.1
El percentil 95 de una variable con distribución Ji-cuadrado con (k − 1) = 4

grados de libertad, corresponde al valor 9.48778, por lo tanto al ser el valor de
la Estadı́stica de Pearson menor que el mencionado percentil, se concluye que
no hay evidencia estadı́stica para rechazar el modelo uniforme para caracterizar
con propiedad la proporción de la prima de los empleados dedicada a cubrir
obligaciones económicas contraı́das, decisión idéntica si se utiliza el valor p cuyo
valor corresponde a 0.70095688.
Ejemplo 4.9.2. Igualmente como preparación a la evaluación del ajuste al

modelo Gaussiano con valor esperado μ y varianza σ 2 totalmente especifica-
dos, de una variable de interés, se determina una partición de la recta real que
por comodidad puede consistir de k subintervalos disyuntos de igual amplitud,
exceptuándose el primero y el último. El subintervalo j-ésimo (xj−1 , xj ), con
x0 = −∞ y xk = ∞, es un intervalo cuya probabilidad es
xj 2
1 1 x−μ xj − μ xj−1 − μ
0
πj = √ exp − dx = Φ −Φ
xj−1 2πσ 2 σ σ σ
j = 1, 2, . . . , k, y seguidamente se considera una muestra aleatoria

X1 , X2 , . . . , Xn , de tamaño n de una población cuya densidad se desconoce
y a partir de ella se determina cada una de las variables Nj , tal como se ha
señalado, para establecer la correspondiente Estadı́stica de Pearson.
Especı́ficamente en un estudio Neumológico, la CPT (capacidad pulmonar to-
tal) definida como el volúmen máximo que los pulmones pueden alcanzar con
el máximo esfuerzo, es una de las variables relevantes. En los adultos la CPT
tiene como promedio 5800 ml, con una desviación estándar de 150 ml. De una
muestra de 270 pacientes, sin antecedentes neumológicos, a los cuales se les re-
alizó un exámen para determinar la CPT, se ha resumido la información de esta
variable en la tabla 4.5.
¿El modelo Gaussiano de valor esperado 5800 y desviación estándar de 150, será
una elección acertada como modelo para representar la capacidad pulmonar to-
tal de pacientes que cumplen los criterios de inclusión definidos para el estudio?.
CPT(ml) Número de
Pacientes
Menos de 5400 12
de 5400 a 5500 46
de 5500 a 5700 78
de 5700 a 5850 80
de 5850 a 6000 39
de 6000 y más 15
Total 270
Tabla 4.5: Distribución del número de pacientes según la capacidad pulmonar

total
La tabla 4.6 presenta tanto las frecuencias observadas y esperadas como los
sumandos para la determinación del valor de la Estadı́stica de Pearson, deriva-
dos de la información precedente.
(nj − npi0j )2
j Clase j nj πj0 nπj0
npi0j
1 (−∞, 5400] 2 0.003830425 1.03421478 0.90188334
2 (5400, 5550] 15 0.043959905 11.86917443 0.82584251
3 (5550, 5700] 60 0.204702137 55.26957697 0.40486834
4 (5700, 5850] 102 0.378066128 102.07785468 5.9680E-05
5 (5850, 6000] 71 0.278230122 75.12213300 0.22619140
6 (6000, ∞] 20 0.091211282 24.62704613 0.86935135
Total 3.22819633
Tabla 4.6: Elementos para el cálculo del valor de la Estadı́stica de Pearson

correspondiente al ejemplo 4.9.2
El percentil 95% de una variable con distribución Ji-cuadrado con (k − 1) = 5

grados de libertad, corresponde al valor 11.0705, por lo tanto al ser el valor de
la estadı́stica de Pearson menor que el mencionado percentil, se concluye que no
hay evidencia estadı́stica para rechazar el modelo Gaussiano como modelo apto
para caracterizar la CPT, decisión equivalente a utilizar el valor p cuyo valor es
0.66485144.
En estos ejemplos se proporcionaron explı́citamente los valores de los com-
ponentes del parámetro. En el primer caso θ1 = 0 y θ2 = 1, en el segundo caso
θ1 = μ = 5800 y θ2 = σ 2 = (150)2 . Sin embargo no siempre ocurre que el mo-
delo en elección esté completamente especificado; muchas veces se candidatiza
a la familia de modelos y no a un miembro particular de ella, lo cual implica la
estimación de componentes del parámetro, bajo el modelo en consideración por
supuesto, y de esta manera se afecta la distribución de la Estadı́stica de Pearson,
pues se reducen los grados de libertad en el número de componentes estimados.

La demostración de esta afirmación está en concordancia con el teorema 4.2.2
y está fuera de los alcances de este texto.
Entonces si en el ejemplo anterior no se hubiesen especificado los valores de
μ = 5800 y σ = 150, habrı́a sido necesario estimar los dos componentes del
parámetro, y como consecuencia los grados de libertad disminuirı́an de 5 a 3.
Con esta modificación en los grados de libertad y la sustitución de μ y σ por sus
respectivas estimaciones, que para este caso son x270 = 5698.88 y s270 = 182.45,
el procedimiento es el mismo que el seguido en los dos ejemplos anteriores.
4.9.2 Juzgamiento del ajuste por el método de Kolmogorov-

Smirnov
Como se manifesto en el tı́tulo anterior, que la decisión frente a la elección de
un modelo propuesto, es equivalente al juzgamiento de la hipótesis: “el modelo
candidato interpreta adecuadamente el comportamiento poblacional ”, traduci-
da generalmente a través de la función de distribución, este método evalúa el
ajuste a modelos que representen variables continuas y juzga la hipótesis nula
H0 : FX (x) = F0 (x, θ) para todo x, dentro del sistema de hipótesis
H0 : FX (x) = F0 (x, θ) para todo x

f rente a
H1 : FX (x) = F0 (x, θ) para algún x
A diferencia de la idea de Pearson que coteja las frecuencias observadas con las
frecuencias esperadas, la idea de Kolmogorov por su parte, coteja la función de
distribución correspondiente al modelo postulado con la función de distribución
empı́rica. A principio de los años 30 del siglo pasado, Kolmogorov, condensó su
idea en la estadı́stica
Dn = sup |Fn (x) − F0 (x, θ)|

−∞<x<∞
que luego Smirnov a finales de los mencionados años la hizo extensiva a otros
propósitos, estadı́stica cuya distribución depende directamente del tamaño de la
muestra como lo garantiza el teorema de Glivenko-Cantelli. Del mismo teorema,
se puede afirmar que valores pequeños de la estadı́stica Dn son argumentos
estadı́sticos a favor de la hipótesis nula, porque si la mayor diferencia entre la
distribución propuesta y la función de distribución empı́rica es relativamente
pequeña, las demás diferencias también serán pequeñas y por lo tanto el modelo
es pertinente; mientras que valores grandes de la estadı́stica se constituyen en
evidencias estadı́sticas para prescindir del modelo propuesto como representante
del comportamiento poblacional.
La distribución muestral de Dn tiene una expresión engorrosa, que el lector
puede consultar en Nonparametric Statistical Inference de J.D.Gibbons (1971)
páginas 77 a 81. El siguiente teorema presenta una aproximación cuando el
tamaño de muestra es relativamente grande.
Teorema 4.9.1. Si F0 (x, θ) es una función de distribución continua, entonces

para cada v > 0,
∞
v
lim P Dn ≤ √ = h(v) = 1 − 2 (−1)j−1 exp(−2j 2 v 2 )
n→∞ n j=1
La función h(v) fue tabulada por Smirnov a mediados del siglo pasado y
muchos programas de cómputo estadı́stico han incluido algoritmos para la de-
terminación de los respectivos percentiles y el cálculo de los valores p, e igual-
mente algunos textos, principalmente los textos de Estadı́stica no paramétrica
incluyen tablas que permiten determinar los percentiles correspondientes.
En pocas palabras, cuando la calidad del ajuste no es satisfactoria se descar-
ta el modelo propuesto, decisión que se adopta cuando dn > c. Utilizando la
aproximación ofrecida por el teorema anterior, el tamaño del test puede estable-
cerse mediante, la expresión

v
α = P Dn > √
n
Ejemplo 4.9.3. Para ilustrar la parte operativa del ajuste por el método de
Kolmogorov-Smirnov, una muestra de 25 baldosas de cerámica de un lote de
producción fueron seleccionadas para identificar el modelo apropiado para de-
scribir la variabilidad del grosor de la baldosa que ella alcanza al final del proceso
de fabricación. Teniendo en cuenta información que acopia el Departamento de
control de calidad, es razonable pensar que el grosor tiene un comportamiento
uniforme entre 90 y 110 milı́metros. La tabla 4.7, presenta los valores particu-
lares de la muestra ordenados, la función empı́rica, la función de distribución
correspondiente al modelo en consideración y las diferencias entre ellas.
Como sup |F25 (x) − F0 (x, θ)| = 0.05 y el percentil 95 de la distribución de Dn
es 0.238 (valor tomado de la Tabla III en Applied Nonparametric Statistical
Methods de P. Sprent (1993)), no hay evidencia estadı́stica para desechar el
modelo uniforme en el intervalo (90, 110) para describir las irregularidades, con
respecto al estándar, del grosor de la baldosa.
Nota. El juzgamiento del ajuste de una variable discreta mediante el método
de Pearson no tiene restricción alguna, sólo la que le es común a cualquier tipo
de variable: tamaño de una muestra relativamente grande, para que sea legı́timo
el uso de los percentiles de una variable aleatoria con distribución Ji-cuadrado,
o el cálculo de los valores p a través de ella, como los puntos de referencia para
tomar la decisión. El método de juzgamiento del ajuste mediante la estadı́stica
de Kolmogorov-Smirnov se ha establecido sobre la consideración de que F0 (x, θ)
es continua. Sin embargo algunos autores como Noether han demostrado que
se puede utilizar el procedimiento para ajuste de modelos discretos, pero que el
nivel del test se altera.
Para dar fin a este capı́tulo y por consiguiente al contenido de este texto,
un punto final al vocablo: modelo, que aparece por primera vez en este texto
Valores
ordenados F25 (x) F0 (x, θ) |F25 (x) − F0 (x, θ)|
91 0.04 0.05 0.01
92 0.08 0.10 0.02
93 0.12 0.15 0.03
94 0.20 0.20 0.00
94 0.20 0.20 0.00
95 0.28 0.25 0.03
95 0.28 0.25 0.03
96 0.32 0.30 0.02
97 0.36 0.35 0.01
98 0.40 0.40 0.00
99 0.44 0.45 0.01
100 0.48 0.50 0.02
101 0.52 0.55 0.03
102 0.56 0.60 0.04
103 0.60 0.65 0.05
104 0.72 0.70 0.02
104 0.72 0.70 0.02
104 0.72 0.70 0.02
106 0.76 0.80 0.04
107 0.84 0.85 0.01
107 0.84 0.85 0.01
108 0.88 0.90 0.02
109 0.96 0.95 0.01
109 0.96 0.95 0.01
110 1.00 1.00 0.00
Tabla 4.7: Valores muestrales ordenados del grosor de las baldosas y sus respec-
tivos valores de las funciones de distribución
precisamente en la primera página cuando se cita una frase del psicólogo Jerome
Seymour Bruner, con la cual se encabeza el capı́tulo inicial, vocablo mencionado
con frecuencia de manera explı́cita o tácita en todos los capı́tulos y que incluso
también en esta última página se hace alusión a él.
La mente humana puede construir modelos tan artificiosos y complejos como
quiera, pues cuenta con herramientas que le permiten elaborar ilimitadamente
mundos virtuales donde puede incorporar a voluntad, propiedades, relaciones,
normas, semánticas, en fin, un sinnúmero de elementos, agregados a voluntad o
en coherencia con otros, para generar la dinámica propia de ese mundo virtual.
Pero tal vez no sea la mejor ruta, el excesivo detalle y meticulosidad en la
elaboración del modelo, tratándose de encontrar un paradigma que a manera
de una réplica ofrezca alternativas de explicación de la realidad, de reproduc-
ción simplificada de los rasgos y caracterı́sticas de ella. Si bien es cierto que

en el modelado de la realidad se incluyen elementos no reales y se excluyen
realidades que se suponen o se demuestran que son superfluas, en la descrip-
ción o explicación de un fenómeno, ese proceso modelador debe estar inspirado
en un principio de economı́a que permite simplificar al máximo los conceptos,
elementos y relaciones del modelo.
Guillermo de Ockham polémico filósofo del siglo XIV ya lo advertı́a con su
famosa “Ley de parsimonia ”que corrientemente se le conoce como “Navaja de
Ockham ”, consistente en la inutilidad de multiplicar los elementos explicativos o
descriptivos de algún fenómeno, enunciada como “Entia non sunt multiplicanda
sine necessitate ”que puede traducirse como, no hay que multiplicar las cosas sin
necesidad, y entenderse en este texto como la intención sana de formular modelos
y teorı́as que busquen explicar los hechos utilizando el mı́nimo de presupuestos.
Los modelos probabilı́sticos, como se ha afirmado a lo largo de este texto
son modelos especiales que intentan reproducir un comportamiento exclusivo
de variabilidad, modelos que incorporan expresiones matemáticas propias que
lo identifican y lo caracterizan, expresiones que dependen principalmente de
parámetros que habilitan la identificación de miembros de una familia particu-
lar de modelos. Como modelos que son, los modelos probabilı́sticos no están
exentos de ser construidos de manera exagerada y compleja complicando muy
posiblemente su manejo.
La sencillez del modelo despojado de lo superfluo, con parsimonia en sus
parámetros, lo enaltece, lo hace atractivo, lo hace útil. Por ello la propuesta
de modelos sencillos para representar una población particular, cuando los mo-
delos usuales y tradicionales no colman las expectativas de los investigadores y
analistas estadı́sticos en casos especı́ficos, es un reto interesante para una mente
inquieta que ve en la naturaleza la fuente de inspiración y el motivo de sus
reflexiones estadı́sticas.
“La mayorı́a de las ideas fundamentales de la ciencia

son esencialmente sencillas y por lo general pueden ser
expresadas en un lenguaje comprensible para todos”.
Albert Einstein

Demostración (Teorema 4.2.1). Como preparación a la demostración, se
tienen los siguientes elementos
1. Paralelamente al test τ , se considera cualquier test τ para el juzgamiento
de la hipótesis nula, con función crı́tica ϕτ (xn ) y nivel α.
2. Además de la región crı́tica Cτ,n asociada al test τ , cuya función crı́tica
es ψτ (xn ), se establecen los siguientes conjuntos, disyuntos entre sı́ y
disyuntos con Cτ,n ,
n
n

D = xn k fX (xi , θ1 ) < fX (xi , θ0 )

i=1 i=1
n
n

E = xn k fX (xi , θ1 ) = fX (xi , θ0 )

i=1 i=1

3. ψτ (Xn ) puede considerarse como una variable aleatoria con distribución
de Bernoulli cuya probabilidad de éxito bajo θ0 es

Pθ0 ψτ (Xn ) = 1 = Eθ0 ψτ (Xn ) =α
5
4. El sı́mbolo corresponde a la integral múltiple sobre el conjunto A y dxn
A
representa a dx1 dx2 . . . dxn .
El objeto de la demostración es simple: concluir que πτ (θ1 ) ≥ πτ (θ1 ) tal como
lo estipula la definición 4.2.1 o en otros términos concluir que

Eθ1 ψτ (Xn ) ≥ Eθ1 ϕτ (Xn )
Para ello la demostración gira alrededor de la diferencia:

Δ = Eθ1 ψτ (Xn ) − Eθ1 ϕτ (Xn ) = Eθ ψτ (Xn ) − ϕτ (Xn )

n
= ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
X i=1
Como X = Cτ,n ∪ D ∪ E

n
Δ= ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
Cτ,n i=1

n
+ ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
D i=1

n
E i=1
cuando xn ∈ Cτ,n , ψτ (xn ) = 1 y cuando xn ∈ D, ψτ (xn ) = 0, ası́ entonces,

n

n
Δ1 = 1 − ϕτ (xn ) fX (xi , θ1 )dxn + −ϕτ (xn ) fX (xi , θ1 )dxn
Cτ,n i=1 D i=1

n
E i=1
)
n )
n
Adicionalmente cuando xn ∈ Cτ,n , k fX (xi , θ1 ) > fX (xi , θ0 ), y con ello
i=1 i=1

n

n
k 1 − ϕτ (xn ) fX (xi , θ1 )dxn > 1 − ϕτ (xn ) fX (xi , θ0 )dxn
Cτ,n i=1 Cτ,n i=1
)
n )
n
igualmente, cuando xn ∈ D entonces −k fX (xi , θ1 ) > − fX (xi , θ0 ) y por
i=1 i=1
lo tanto

n

n
k −ϕ τ (xn ) fX (xi , θ1 )dxn > −ϕτ (xn ) fX (xi , θ0 )dxn
D i=1 D i=1
)
n )
n
y finalmente cuando xn ∈ E, k fX (xi , θ1 ) = fX (xi , θ0 ), con lo cual,
i=1 i=1

n
k ψτ (xn ) − ϕτ (xn ) fX (xi , θ1 )dxn
E i=1

n
= ψτ (xn ) − ϕτ (xn ) fX (xi , θ0 )dxn
E i=1
teniendo en cuenta las desigualdades descritas,

n

n
kΔ1 > 1 − ϕτ (xn ) fX (xi , θ0 )dxn + −ϕτ (xn ) fX (xi , θ0 )dxn
Cτ,n i=1 D i=1

n
+ ψτ (xn ) − ϕτ (xn ) fX (xi , θ0 )dxn = Δ2
E i=1

n
Δ2 = ψτ (xn ) − ϕτ (xn ) fX (xi , θ0 )dxn
Cτ,n i=1

n
D i=1

n
E i=1

= Eθ0 ψτ (Xn ) − ϕτ (Xn )
como los test tienen el mismo nivel, Δ2 = α − α = 0 y como kΔ1 > Δ2 se puede
afirmar que Δ1 ≥ 0, luego

Eθ1 ψτ (Xn ) ≥ Eθ1 ϕτ (Xn )
conclusión que garantiza que el test τ cuya región crı́tica es Cτ,n es un test más
potente para
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
Demostración (Teorema 4.2.2). Puede consultarse en Mathematical Statis-

tics de Wilks (1962), en las páginas 419 y 420.
Demostración (Teorema 4.2.3). Sean θ1 y θ2 dos valores de θ de tal manera

que θ1 ≤ θ0 y θ2 > θ0 , con ellos se formula un nuevo sistema de hipótesis simples
como:
H0∗ : θ = θ1
f rente a
H1∗ : θ = θ2
El lema de Neyman-Pearson garantiza que el test,
L(θ1 ; x1 , x2 , . . . , xn )
τ : “Rechazar H0∗ si λn = < κ”
L(θ2 ; x1 , x2 , . . . , xn )
es un test más potente para H0∗ en el nuevo sistema. Dado que la familia
{fX (x, θ)} tiene MLR en la estadı́stica T = t(X1 , X2 , . . . , Xn ), y suponiendo
que el cociente de verosimilitudes es una función no creciente de t(x1 , x2 , . . . , xn ),
afirmar que λn < κ equivale a afirmar que t(x1 , x2 , . . . , xn ) > t1−α , como lo
indica la figura 4.17,
λn
t1−α t
Figura 4.17: Esquema de un cociente no creciente de verosimilitudes como fun-

ción de los valores de la estadı́stica Tn
por lo tanto el test se puede formular de manera equivalente como
τ : “Rechazar H0∗ si t(x1 , x2 , . . . , xn ) > t1−α ”
Este test es UMP para H0 en el sistema,
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
debido a que el test no depende de θ1 ni de θ2 , porque el test es más potente para

cualquier escogencia de θ1 , θ2 ∈ Θ, sujetos a que θ1 ≤ θ0 < θ2 . El otro numeral
del enunciado del teorema se demuestra de igual manera.
Demostración (Teorema 4.8.1). Asumiendo que la hipótesis nula es cierta,

entonces
∞ n
α= fX (xi , θ0 )dx1 dx2 · · · dxn
n=1 Cτ,n i=1
y además que
n n
fX (xi , θ0 ) ≤ κ0 fX (xi , θ1 )
i=1 i=1
por lo tanto
∞
n
α ≤ κ0 fX (xi , θ1 )dx1 dx2 · · · dxn = (1 − β)
n=1 Cτ,n i=1
porque
∞
n
fX (xi , θ1 )dx1 dx2 · · · dxn
n=1 Cτ,n i=1
corresponde a la probabilidad de rechazar H0 cuando H1 se considera cierta.

Luego
α
α ≤ κ0 (1 − β), es decir ≤ κ0
1−β
Por otra parte, la probabilidad de no rechazar H0 siendo ella verdadera corres-

ponde a
∞
n
1−α= fX (xi , θ0 )dx1 dx2 · · · dxn
n=1 Aτ,n i=1
y como en los casos de no rechazo de la hipótesis nula,

n n
fX (xi , θ0 ) ≥ κ1 fX (xi , θ1 )
i=1 i=1
entonces
∞
n
1 − α ≥ κ1 fX (xi , θ1 )dx1 dx2 · · · dxn = κ1 β
n=1 Aτ,n i=1
luego
1−α
1 − α ≥ κ1 β, es decir κ1 ≤
β
α
κ0 tiene entonces una cota inferior 1−β y κ1 tiene una cota superior 1−α
β , cotas
que se pueden asumir como aproximaciones a κ0 y κ1 respectivamente.
Demostración (Teorema 4.8.2). Sean Cτ∗ , Cτ,n ∗

, A∗τ , A∗τ,n las regiones crı́ticas
y de aceptación correspondientes a los niveles α∗ y β ∗ derivados de los valores
κ∗0 y κ∗1 .
∞
n
α∗ = fX (xi , θ0 )dx1 dx2 · · · dxn
∗
Cτ,n
n=1 i=1
∞ n
α
≤ fX (xi , θ1 )dx1 dx2 · · · dxn
1−β n=1
∗
Cτ,n i=1
de acuerdo a uno de los pasos de la demostración del teorema 4.8.1,

∞
α
n
α
fX (xi , θ1 )dx1 dx2 · · · dxn = (1 − β ∗ )
1 − β n=1 Cτ,n
∗
i=1
1 − β
similarmente,
∞
n
1 − α∗ = fX (xi , θ0 )dx1 dx2 · · · dxn
n=1 A∗
τ,n i=1
∞ n
1−α
≥ fX (xi , θ1 )dx1 dx2 · · · dxn
β n=1 A∗
τ,n i=1
a su vez
∞
1−α
n
1−α ∗
fX (xi , θ1 )dx1 dx2 · · · dxn = β
β n=1 A∗τ,n i=1 β
Concretamente de lo anterior,
α 1−α
α∗ ≤ (1 − β ∗ ) y (1 − α∗ ) ≥
1−β β
A partir de estas desigualdades es fácil comprobar que
α∗ + β ∗ ≤ α + β

1. Adoptanto el modelo Uniforme en el intervalo (0, θ) para representar el
comportamiento de una población, para la cual se conjetura además que
el valor del parámetro no excede a θ0 , se determina el siguiente sistema
de hipótesis
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
formalice un test con nivel α para el juzgamiento de H0 dentro de este
sistema de hipótesis, basado en una muestra aleatoria de tamaño n de esta
población.
2. Bajo las consideraciones del ejercicio anterior, formalice un test con nivel
α para el juzgamiento de H0 dentro del sistema de hipótesis
H0 : θ = θ 0
f rente a
H1 : θ = θ0
3. Establezca una expresión algebraica para la función de potencia del test

determinado en el ejercicio 1.
4. Al adoptar la distribución de Poisson con parámetro θ para modelar una

población particular, es conveniente proveer un test que permita decidir
sobre la hipótesis nula H0 dentro del sistema
H0 : θ = θ 0
f rente a
H1 : θ = θ0
Para tal efecto determine un test con nivel α basado en una muestra
aleatoria de tamaño n de la citada población.
5. La distribución de Cauchy es un modelo muy singular debido a sus parti-

cularidades de no existencia de sus momentos. ¿La familia de densidades
de Cauchy es una familia que tiene MLR en alguna estadı́stica?
6. Considere la distribución particular de Cauchy
1
fX (x) = ,x ∈ R
π [1 + (x − θ)2 ]
¿Bajo el siguiente sistema de hipótesis es posible determinar un UMP de

nivel α para el juzgamiento de H0 basado en una muestra aleatoria de
tamaño n?.
H0 : θ = 0
f rente a
H1 : θ > 0
7. El modelo Exponencial desplazado, mencionado en los ejercicios del primer

capı́tulo y en un ejemplo de este capı́tulo tiene diversas aplicaciones. En
particular, regido por este modelo resulta algunas veces interesante e-
valuar el hecho de si para un caso individual el desplazameinto es un
elemento significativo dentro del modelado, es decir si es preciso introducir
un componente del parámetro para indicar el desplazamiento, o por el
contrario es inocuo hacerlo y de esta manera simplificar el modelo elegido.
En el lenguaje del juzgamiento de hipótesis corresponde al sistema
H0 : θ 1 = 0
f rente a
H1 : θ 1 > 0
Teniendo presente que el parámetro θ = (θ1 , θ2 ) reserva el primer compo-

nente para referirse precisamente al desplazamiento, construya un test de
nivel α para este propósito.
8. Una modalidad caracterı́stica de procedimientos en el Control Estadı́stico

de la Calidad, se ha denominado Muestreo para la aceptación de lotes,
dentro de la cual se menciona un procedimiento particular correspondiente
al juzgamiento de la hipótesis H0 dentro del sistema
H0 : θ < θ 0
f rente a
H1 : θ ≥ θ 0
parámetro cuyo espacio corresponde al intervalo (0, 1) y que representa

la denominada fracción no conforme de materia prima, de productos en
proceso o de productos terminados, según sea el objeto y momento de su
aplicación, que dentro del modelo de Bernoulli corresponde a la probabi-
lidad de éxito. Determine un test de nivel cercano a α y su función de
potencia. Bosqueje la curva de operación OC.
9. Desarrolle un test para el juzgamiento de la homocedasticidad como el

presentado en el numeral 4.4.2, página 191, asumiendo que μ1 y μ2 son
valores conocidos.
10. ¿Cambiará radicalmente el test para homocedasticidad en dos poblaciones

Normales, si se asume que μ1 y μ2 son desconocidos pero iguales?.
11. Determine una expresión para el cálculo del tamaño de muestra apropiado
para el juzgamiento de la hipótesis nula H0 : π = π0 en el sistema
H0 : π = π0
f rente a
H1 : π > π0
por medio de un test construido bajo consideraciones de tamaño de mues-

tra grande, siendo π la probabilidad de éxito o proporción poblacional.

de densidad fX (x, θ) = θ(1 − x)θ−1 I(0,1) (x), con θ > 0. Este modelo se
propone como emulador del comportamiento de la fracción no conforme
de la materia prima que recibe cierta compañı́a para utilizarlo como la
distribución a priori de Θ. Pero previo a ello y dentro del análisis de su

ajuste se desea contar con un test que juzgue la hipótesis nula H0 : θ ≤ θ0
dentro del sistema de hipótesis
H0 : θ ≤ θ 0
f rente a
H1 : θ > θ 0
Determine un test para tal fin.
13. Sea X1 , X2 , . . . , Xn , una muestra aleatoria de una población con fun-
ción
de densidad Uniforme en el intervalo (0, θ). Fijando el valor k, si
Xn,n , k1n Xn,n es un intervalo confidencial para el parámetro θ, entonces
use este hecho para derivar de allı́ un test para juzgar la hipótesis nula
H0 : θ = θ0 dentro del sistema de hipótesis
H0 : θ = θ 0
f rente a
H1 : θ = θ0
Si no es ası́ desarrolle un test utilizando otros medios para el juzgamiento
de la hipótesis nula en el citado sistema.
de densidad Uniforme en el intervalo (θ, θ + 1), con θ ∈ R. Determine un
test para el juzgamiento de la hipótesis nula H0 : θ = 0 dentro del sistema
de hipótesis
H0 : θ = 0
f rente a
H1 : θ > 0

de densidad fX (x, θ) = θ exp(−θx)I(0,∞) (x). Determine la función de
potencia de un test para el juzgamiento de la hipótesis nula H0 : θ = 1
dentro del sistema de hipótesis
H0 : θ = 1
f rente a
H1 : θ = 1
16. Determine la función de potencia del test correspondiente al juzgamiento

de la hipótesis nula H0 : μ1 − μ2 ≤ δ0 dentro del sistema de hipótesis
H0 : μ1 − μ2 ≤ δ0
f rente a
H1 : μ1 − μ2 > δ0
bajo Normalidad y con base en dos muestras seleccionadas de dos pobla-

ciones independientes y homoscedásticas. Exprese dicha función de po-
tencia en términos de δ0 .
17. Sea (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ), una muestra aleatoria de una población
Normal bivariada. Determine un test para el juzgamiento de la hipótesis
nula H0 : ρ = 0 dentro del sistema de hipótesis
H0 : ρ = 0
f rente a
H1 : ρ = 0
18. La contaminacion de los rı́os es un desastre para la humanidad. El rı́o

Bogotá recibe en casi todo su recorrido desechos que trastornan extraor-
dinariamente la vida del rı́o. Si una autoridad de Salud Pública tiene que
evaluar el nivel de contaminación del rı́o en un punto especial y tomar
decisiones al respecto, y particularmente sobre el contenido promedio de
plomo μ, que no debe exceder μ0 partes por millón por litro de agua,
decisión que debe tomarse a través de un test estadı́stico basado en una
muestra de tamaño n. Lleve a cabo una reflexión sobre los valores del
error del tipo I que deben adoptarse.
19. Muestre que la función de potencia del test τc , correspondiente al Sistema
C para el juzgamiento de la hipótesis nula H0 : θ = μ0 bajo Normalidad y
adoptando el primer supuesto, presentada en la sección 4.3.1, página 172,
cumple las siguientes propiedades:
(a) πτc (θ) es simétrica con respecto a μ0 .
(b) πτc (θ) es decreciente en el intervalo (−∞, μ0 ) y creciente en el inter-
valo (μ0 , ∞).
(c) lim πτc (θ) = 1 y lim πτc (θ) = 1.
θ→−∞ θ→∞
(d) πτc (μ0 ) = α.

20. Desarrolle un test de nivel α para juzgar la hipótesis nula H0 : θ ≤ μ0
frente a la hipótesis alterna H1 : θ > μ0 bajo Normalidad y conocido el
valor de σ. Muestre que la función de potencia del test es
√
n(θ − μ0 )
πτ (θ) = Φ −z1−α +
σ
función que cumple las siguientes propiedades:

(a) πτ (θ) es creciente.
(b) lim πτ (θ) = 0 y lim πτ (θ) = 1.
θ→−∞ θ→∞
(c) πτ (μ0 ) = α.
21. Muestre que la expresión algebraica que permite el cálculo del valor p al
utilizar el test τc en el juzgamiento de la hipótesis nula H0 : μ = μ0 frente
a la hipótesis alterna H1 : μ = μ0 , bajo Normalidad asumiendo el segundo
supuesto, es

p = 2 1 − F(n−1) (|tc |)
siendo F(n−1) (x) la función de distribución de una variable aleatoria X,
con distribución t con (n − 1) grados de libertad.
22. Muestre que la expresión algebraica que permite el cálculo del valor p al
utilizar el test τ en el juzgamiento de la hipótesis nula H0 : μ ≤ μ0 frente a
la hipótesis alterna H1 : μ > μ0 , bajo Normalidad asumiendo desconocido
el valor del promedio poblacional y eligiendo = δ = α2 es:
2 2 2 2
σ0 χ1− α σ0 χ α
πτ (θ) = 1 − F(n−1) 2
+ F (n−1)
2
σ2 σ2
siendo F(n−1) (x) la función de distribución de una variable aleatoria X,

con distribución Ji-cuadrado con (n − 1) grados de libertad. Deduzca las
propiedades de esta función de potencia.
23. Con respecto al ejercicio anterior, determine la expresión para el cálculo
del correspondiente valor p.
24. Muestre que la expresión algebraica de la función de potencia, a utilizar
el test τ en el juzgamiento de la hipótesis nula H0 : σ 2 ≤ σ02 frente a la
hipótesis alterna H0 : σ 2 > σ02 , bajo Normalidad asumiendo desconocido
el valor promedio poblacional es:
πτ (θ) = 1 − F(n−1) (tc )
siendo F(n−1) (x) la función de distribución de una variable aletaoria X,
con distribución Ji-cuadrado con (n − 1) grados de libertad. Deduzca las
propiedades de esta función de potencia.
25. Con respecto al ejercicio anterior, determine la expresión para el cálculo
del correspondiente valor p.
26. Se cuenta con recursos económicos únicamente para seleccionar N = n+m
unidades estadı́sticas para el juzgamiento de la hipótesis nula H0 : μ1 = μ2
concerniente a la “comparación de los promedios poblacionales”de dos
poblaciones independientes regidas por el modelo Gaussiano y conocidos
los valores de σ12 y σ22 , frente a la hipótesis alterna H1 : μ1 = μ2 . ¿Cómo
deben elegirse los tamaños de las muestras n y m para mantener las ca-
racterı́sticas del test desarrollado para el mencionado juzgamiento?.
27. Desarrolle un test para el juzgamiento de la hipótesis nula H0 : μ1 = 2μ2
bajo la regencia del modelo Gaussiano correspondiente a dos poblaciones
independientes de las cuales se conocen los valores de σ12 y σ22 , frente a la
hipótesis alterna H1 : μ1 = 2μ2 .
28. ¿Existe algún impedimento en el desarrollo de un test para el juzgamiento

de una hipótesis nula más general, que la del ejercicio anterior,
H0 : μ1 = cμ2 , siendo c > 0 una constante conocida?.
29. Determine un test secuencial para el juzgamiento de la hipótesis nula H0 :

θ = θ0 , en el sistema de hipótesis simples
H0 : θ = θ 0
f rente a
H1 : θ = θ 1
basado en una muestra aleatoria de una población con distribución de

Poisson de parámetro θ.

ción Beta con θ1 = θ2 = θ. Determine un test más potente para el
juzgamiento de la hipótesis nula H0 : θ = 1, dentro del sistema de hipótesis
H0 : θ = 1
f rente a
H1 : θ = 2
31. Determine un test más potente para juzgar la hipótesis nula H0 : θ = 1

dentro del sistema de hipótesis del ejercicio anterior, si el modelo asumido
es un modelo cuya función de densidad es
fX (x, θ) = θxθ−1 I(0,1) (x), θ>0
32. Teniendo en cuenta el ejercicio anterior, muestre que el test uniforme más
potente para juzgar la hipótesis nula dentro del sistema,
H0 : θ = 1
f rente a
H1 : θ < 1
está basado en una estadı́stica suficiente para θ.
33. En un estudio de opinión se realizaron 6348 llamadas telefónicas y la firma

encuestadora informa que el 25% de las llamadas fueron fallidas y que por
lo tanto los resultados se refieren a las entrevistas realizadas a personas
mayores de 18 años correspondiente al restante porcentaje. El auditor
estadı́stico considera que el porcentaje de no respuesta está muy elevado,
y propone juzgar la afirmación de la compañı́a por medio de una muestra
seleccionada de los registros de las llamadas realizadas por los entrevista-
dores para comprobar la no respuesta. Puede entonces asumirse el modelo
Bernoulli con parámetro θ, y juzgar la hipótesis nula H0 : θ = 14 , dentro

del sistema de hipótesis:
1
H0 : θ =
4
f rente a
1
H1 : θ <
4
Determine un test que permita el juzgamiento de esta hipótesis.
34. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribu-
ción Gaussiana de valor esperado cero y varianza θ. ¿Existe un test uni-
forme más potente para juzgar la hipótesis nula H0 : θ = θ0 , frente a la
hipótesis alterna H1 : θ = θ0 ?.
Bibliografı́a
[1] Arthanari, T.S. Mathematical Programming in statistics / T. S. Arthanari,

Yadolah Dodge. New York: John Wiley. 1981 xviii, 413 p. (Wiley series in
probability and mathematical statistics)
[2] Ash B. Robert. Basic Probability Theory. 1970 John Wiley & Sons, Inc.
[3] Barnett, Victor David Comparative statistical inference / Vic Barnett. Lon-
don : John Wiley. 1975 xv, 287 p. (Wiley series in probability and mathe-
matical statistics)
[4] Barndorff-Nielsen. Ole Information and exponential families: in statistical
theory / O. Barndorff-Nielsen. New York: John Wiley. 1978 ix, 238 p.
(Wiley series in probability and mathematical statistics)
[5] Bartoszynski Robert. Probability and Statistical Inference / Robert Bar-
toszynski and Magdalena Niewiadomska-Bugaj. (Wiley series in probability
and mathematical statistics) 1996.
[6] Bernardo, José Miguel. Bayesian theory / José M. Bernardo, Andrain F.M.
Smith. New York: John Wiley. 1994 xiv, 586 p. (Wiley series in probability
and mathematical statistics)
[7] Berger, James O. Statistical decision theory and Bayesian analysis / James
O. Berger. 2a ed. New York: Springer-Verlag. 1985 xvi, 617 p.
[8] Brunk, H.D. An introduction to mathematical statistics. 2a ed. Waltham,
Mass. Blaisdell. 1965 429 p. (Blaisdell Book in Pure and Applied Mathe-
matics)
[9] Beard, Robert Eric. Risk theory: the stochastics basis of insurance / R.E.
Beard, T. Pentikainen, E. Pesonen. 3a ed. London: Chapman and Hall.
1984 xvii, 408 p. (Monographs on statistics and applied probability)
[10] Cramer, Harald. Métodos matemáticos de estadı́stica. Madrid: Aguilar.
1960. 660 p.
[11] Cramer, Harald. Elementos de la teoria de probabilidades y algunas de sus
aplicaciones / tr. Anselmo Calleja. 6a ed. Madrid: Aguilar. 1972 xvi, 321
p.
231
232 BIBLIOGRAFÍA
[12] Daykin, Chris D. Practical risk theory for actuaries / C.D. Daykin, T.
Pentikainen, M. Pesonen. New York: Chapman and Hall. 1944 xxi, 546 p.
(Monographs on Statistics and Applied Probability; 53)
[13] De Groot Morris. Probabilidad y Estadı̀stica. Addison-Wesley Iberoameri-

cana. 1988.
[14] Dorea, Chang Chung Yu. Teoria assintotica das estatisticas / Chang C.Y.
Dorea. Rio de Janeiro: Instituto de Matematica Pura e Aplicada. 1995.
79 p.
[15] Dudewics Edward J. Modern Mathematical Statistics / Edward J. Dudewics

and Satya N. Mishra (Wiley series in probability and mathematical statis-
tics). 1998
[16] Edwards, Anthony William Fairbank. Likelihood: an account of the satisti-

cal concept of likelihood and its application to scientific inference / A.W.F.
Edwards. Cambridge: Cambridge University Press. 1972 xv, 235 p.
[17] Ellis, Richard B. Statistical inference: basic concepts / Richard B. Ellis.

Englewood Cliffs: Prentice-Hall. 1975 xiv, 258 p.
[18] Ekeblad, Frederick A. The statistical method in business, applications of

probability and inference of business and other problems. New York: John
Wiley. 1962. 791 p.
[19] Feller, William. An introduction to probability theory and its applications.

3a ed. New York: John Wiley. 1968-71 (Wiley series in probability and
mathematical statistics)
[20] Fisz, Marek. Probability theory and mathematical statistics. 3a ed. New
York: John Wiley. 1967 xvi, 677 p. (Wiley series in probability and math-
ematical statistics). (Wiley publication in mathematical statistics)
[21] Freund, John E. Mathematical statistics. Englewood Cliffs: Prentice-Hall.

1962. 390 p.
[22] Freeman, Harold. Introduction to statistical inference. Reading, Mass.

Addison-Wesley. 1963. 445 p. (Addison-Wesley series in statistics)
[23] Guenther, William C. Concepts of statistical inference. New York:

McGraw-Hill. 1965. 353 p.
[24] Gmurman, Vladimir Efimovich. Teoria de las probabilidades y estadı́stica

matemática / V.E. Gmurman. tr Akp Grdian. Moscú: Mir. 1974. 387 p.
[25] Gmurman, Vladimir Efimovich. Problemas de la teoria de las probabilidades

y de estadı́stica matemática / V.E. Gmurman. tr Akp Grdian. Moscú: Mir.
1975. 374 p.
BIBLIOGRAFÍA 233
[26] Hacking, Ian. The emergence of probability: a philosophical study of early

ideas about probability, induction and statistical inference / Ian Hacking.
Cambridge: Cambridge University Press. 1987. 209 p.
[27] Hettmansperger, Thomas P. Statistical inference based on ranks. New York:
John Wiley. 1984 xviii. 323 p. (Wiley series in probability and mathematical
statistics)
[28] Hogg, Robert V. Introduction to mathematical statistics / Robert V. Hogg,
Allen T. Craig. 5a ed. Prentice Hall. 1995. 438 p.
[29] Hoel Paul G. Introduction to mathematical statistics. 2a ed. New York:
John Wiley. 1954. 331 p.
[30] Keeping E.S. Introduction to statistical inference. New York: D. Van Nos-
trand. 1962. 451 p.
[31] Larson, Harold J. Introduction to probability theory and statistical inference.
Harold J. Larson. New York: John Wiley. 1974 xi, 430 p. (Wiley series in
probability and mathematical statistics)
[32] Lehmann, Erich Leo. Theory of point estimation. New York: John Wiley.
1983 xii, 506 p. (Wiley series in probability and mathematical statistics)
[33] Mood, Alexander McFarlane. Introduction to the theory of statistics.
Alexander M. Mood, Franklin A. Graybill, Duane C. Boes. 3th ed. / Inter-
national ed. Signapore: McGraw-Hill. 1974 xvi, 564 p. (McGraw-Hill series
in probability and statistics)
[34] Muirhead, Robb John. Aspects of multivariate statistical theory. New York:
John Wiley. 1982 xix, 673 p. (Wiley series in probability and mathematical
statistics)
[35] Parzen, Emanuel. Modern probability theory and its applications. New York:
John Wiley. 1971 xv, 464 p. (Wiley Publication in Mathematical Statistics)
[36] Randles, Ronald H. Introduction to the theory of nonparametric statistics.
Ronald H. Randles, Douglas A. Wolfe. New York: John Wiley. 1979 xiii,
450 p. (Wiley series in probability and mathematical statistics)
[37] Rohatgi, Vijak K. Statistical inference / Vijak K. Roahtgi. New York: John
Wiley. 1984 xiv, 940 p. (Wiley series in probability and mathematical sta-
tistics)
[38] Serfling, Robert J. Approximation theorems of mathematical statistics.
Robert J. Serfling. New York: John Wiley. 1980 xiv, 371 p. (Wiley series
in probability and mathematical statistics)
[39] Tanner, Martin Abba. Tools for statistical inference: methods for the explo-
ration of posterior distributions and likelihood functions. 2a ed. New York:
Springer-Verlag. 1993 ix, 156 p. (Springer series in statistics)
234 BIBLIOGRAFÍA
[40] Tucker, Howard G. An introduction to probability and mathematical statis-

tics. New York: Academic Press. 1967. 228 p.
[41] Tennant-Smith. J. Estadı́stica: teorı́a, problemas y aplicaciones en BASIC.
J. Tennant-Smith. tr. Manuel Urrutia Avisrror. Madrid: Anaya Multime-
dia. 1986. 218 p.
[42] Thomasian, Aram J. The structure of probability theory with applications.
New York: McGraw-Hill. 1969. 746 p. (McGraw-Hill Series in Probability
and Statistics)
[43] Weatherburn, C.E. A first course in mathematical statistics. 2a ed. Cam-
bridge: Cambridge University Press. 1962. 277 p.
[44] Wilks, S.S. Mathematical statistics. Princeton: Princeton University Press.
1950. 284 p.
[45] Zacks, Shelemyahu. The theory statistical inference. New York: Wiley. 1971
xiii, 609 p. (Wiley series in probability and mathematical statistics)
Índice de Materias
análisis cota, 87
de varianza a una vı́a, 185 desigualdad de, 87
criterios
Basu de exclusión, 5
teorema de, 83 de inclusión, 5
Behrens-Fisher curva
problema de, 184 caracterı́stica
bondad de operación, 156
del ajuste, 209 CO
del test, 156
caso
regular
de estimación, 86 desigualdad
completez, 90 de Cramer-Rao, 87
componente distribución
de escala, 122 Beta, 104
de localización, 122 de Cauchy, 224
concentración, 69 de Gumbel, 107
condiciones de regularidad de la función de distribución empı́rica,
cumplimiento de, 86 21
confianza, 116 de la mediana muestral, 20
consistencia, 73 de Laplace, 107
contorno, 75 de las estadı́sticas de orden, 19
convergencia de Pareto, 43, 105, 145
casi segura, 10 de Poisson, 106
con probabilidad uno, 10 de Zipf, 105
débil, 10 del rango, 20
en distribución, 11 del semirango, 20
en media cuadrática, 11 exponencial
en medida, 10 desplazada, 43
en momento de orden r, 11 exponencial doble, 107
en probabilidad, 10 Gama, 106
en valor esperado, 11 Gaussiana, 106
estocástica, 10 muestral, 9
cota original
de Cramer-Rao, 87 de las observaciones, 9
Cramer-Rao reducida, 9
235
236 ÍNDICE DE MATERIAS
Uniforme discreta, 113 asintóticamente insesgado, 71

Zeta, 105 BAN, 74
Bayesiano, 67
eficiencia BLUE, 110
asintótica, 89 BRUE, 89
de un estimador, 89 CAN, 74
relativa, 88 CANE, 74
asintótica, 89 consistente
equivalencia, 82 débil, 73
error en error cuadrático medio, 73
cuadrático medio, 70 simple, 73
del tipo I, 152 de mı́nimos cuadrados, 98
del tipo II, 152 eficiencia de un, 89
máximo eficiente, 89
admisible, 139 el más concentrado, 70
espacio insesgado, 71
de las observaciones, 75 insesgado de varianza uniforme-
del parámetro, 50 mente mı́nima, 84
estadı́stica, 7 L, 97
auxiliar, 83 M, 98
de primer orden, 83 más concentrado, 70
completa, 90 máximo-verosı́mil, 52
contorno de la, 75 MLE, 52
de orden, 18 Pitman
de Pearson, 210–212 el más concentrado, 70
natural, 81 más concentrado, 70
k-dimensional, 82 QMLE, 60
suficiente, 81 robusto, 96
suficiente, 75, 77 UMVUE, 84
minimal, 79 uniformemente
estadı́sticas mejor, 84
conjuntamente estimar, 8
suficientes, 78
equivalentes, 82 familia
estimación, 8 de densidades
Bayesiana, 65 cerrada bajo muestreo, 67
por intervalo, 140 completa, 90
cuasimáximo-verosı́mil, 60 conjugada, 67
de la proporción poblacional, 127 de densidades Pearsoniana, 79
en muestras censuradas, 59 exponencial
máximo-verosı́mil, 52 de densidades k-paramétrica,
por intervalo, 116 80
estimaciones, 9 p-dimensional de densidades,
estimador, 9 80
asintóticamente unidimensional de densidades,
más concentrado, 74 80
ÍNDICE DE MATERIAS 237
Fisher método de Pearson, 209

información de, 85, 86 secuencial, 200
Fisher-Neyman
criterio de factorización de, 77, Khintchine
78 teorema de, 14
función Kolmogorov-Smirnov
crı́tica juzgamiento del ajuste, método
del test aleatorizado, 150 de, 214
del test no aleatorizado, 152 Koopman-Darmois
de cuasiverosimilitud, 60 familia o clase
de densidad p-dimensional, 80
a posteriori, 66
a priori, 65 Lévy
de distribución teorema de, 11, 12
empı́rica, 18 lı́mite
muestral, 18 confidencial
de potencia, 155 inferior, 116
de verosimilitud, 51 inferior unilateral, 116
de la muestra, 52 superior, 116
superior unilateral, 116
Glivenko-Cantelli lı́mite central
teorema de, 22 Lindeberg-Feller, teorema del,
16
hipótesis Lindeberg-Lévy, teorema del, 15
alterna, 149 Lehmann-Scheffé
compuesta, 149 teorema de, 93
estadı́stica, 148 Ley
juzgamiento de una, 148 débil
nula, 149 de los grandes números, 14
simple, 149 fuerte
sistema de, 149 de los grandes números, 15
homoscedasticidad, 182, 184
juzgamiento de la, 191 máximo
de la muestra, 18
información método
de Fisher, 85, 86 de la variable pivote, 117
intervalo de los momentos, 61
aleatorio, 116 de máxima verosimilitud, 51
Bayesiano, 141 por analogı́a, 64
confidencial, 116 mı́nimo
unilateral, 116 de la muestra, 18
mediana, 25
juzgamiento muestral, 18
del ajuste, 208 modelo, 6, 49, 215
método de Kolmogorov-Smirnov, Beta, 104
214 de Pareto, 43, 105
238 ÍNDICE DE MATERIAS
de Poisson, 106 de invarianza de un MLE, 58

exponencial probabilidad
desplazado, 43 de error del tipo I, 153
Gama, 106 procedimiento
Gaussiano, 106 robusto, 96
original, 9 promedio
probabilı́stico, 49 “windsordizado”, 97
reducido, 9 de la muestra, 9
Zeta, 105 muestral, 9
momentos poblacional, 13
de estadı́sticas de orden, 23 recortado, 97
muestrales proporción
centrales, 9 muestral, 55
ordinarios, 9 poblacional, 127
muestra, 5 proporción poblacional
aleatoria, 6 estimación de la, 127
bivariada, 128 pruebas
ordenada, 18 de Normalidad, 209
censurada, 59
del tipo I, 59 rango
del tipo II, 59 muestral, 18
pareada, 128 Rao-Blackwell
piloto, 139 teorema de, 84
tamaño, 6 razón
tamaño de la, 198 generalizada de verosimilitudes,
muestra simple 160
tamaño de la, 139 MLR, 167
muestras censuradas monótona de verosimilitudes, 167
estimación, 59 región
confidencial, 117
Neyman Pearson crı́tica, 150
lema de, 159 tamaño de la, 153
nivel de aceptación, 150
confidencial, 116 de rechazo, 150
del test, 153 robustez, 96
parámetro semirango
de escala, 122 muestral, 18
de localización, 122 sesgo
natural, 81 del estimador, 71
Pearson suficiencia, 75
estadı́stica de, 210–212
juzgamiento del ajuste, método tamaño
de, 209 de la muestra, 6, 198
población, 5 de la muestra simple, 139
principio de la región crı́tica, 153
ÍNDICE DE MATERIAS 239
del test, 153

muestral, 6
test, 150
aleatorizado, 150
función crı́tica del, 150
consistente, 158
curva CO del, 156
de razón generalizada de vero-
similitudes, 163
de razón simple de verosimili-
tudes, 159
insesgado, 156
LRT, 163
más potente, 158
nivel del, 153
no aleatorizado, 150
función crı́tica del, 152
secuencial
de razón de verosimilitudes,
201
tamaño del, 153
UMP, 165
uniformemente más potente, 165
unidades
estadı́sticas, 5
valor p, 169
variable
aleatoria
contaminada, 97
pivote, 117
pivote, 117
general, 120
método de la, 117
varianza
mı́nima, 83
muestral, 9
Wald
ecuación de, 206
Welch
solución de, 184

Inferencia Estadistica Libro

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Inferencia Estadistica Libro

Cargado por

Copyright:

Formatos disponibles

Inferencia Estadı́stica

Universidad Nacional de Colombia

2 ESTIMACIÓN PUNTUAL DE PARÁMETROS 49

3 ESTIMACIÓN POR INTERVALO DE PARÁMETROS 115

4 JUZGAMIENTO DE HIPÓTESIS 147

La escritura de este libro siempre estuvo animada por el deseo obstinado de

las ocasiones fallidas de organizar en un libro el material de la clase, debido a

Este texto ha sido concebido para ser fundamentalmente un texto guı́a en

está más cerca del sentido de la toma de decisiones estadı́sticas e igualmente se

Antes de entrar en materia, es preciso destinar unos pocos párrafos para

1.1 La Inferencia estadı́stica, un soporte episte-

Varios ﬁlósofos antiguos formados en el empirismo gnoseológico, convencidos

el proceso lógico de la inducción desde el punto de vista ﬁlosóﬁco, ni tampoco

1.2 Preliminares en la Inferencia estadı́stica

conjunto en consideración. Al respecto en algunas disciplinas cientı́ﬁcas esas

Semánticamente el vocablo modelo responde a varias acepciones, particu-

propias del modelo y hace posible la utilización de un lenguaje universal, por

El contenido semántico que se les da en Estadı́stica tanto al término estimar

Figura 1.1: Diagrama de calidad y cantidad de información

La calidad de la información, de la cual este texto no se ocupa porque se pre-

el proceso de almacenamiento y guarda de la información.

1.3 Preliminares en convergencia de variables

deﬁnida en un espacio muestral Ω, y teniendo en cuenta que todas las variables

esté siempre deﬁnido.

Además, si las variables aleatorias X1 , X2 , . . . , y la variable aleatoria particular

Ejemplo 1.3.1. Si el comportamiento probabilı́stico de cada una de las

En segundo lugar, se dice que la sucesión de variables aleatorias {Xn } con-

si lim P [|Xn − X| < ] = 1, para > 0. Para referirse a la convergencia en

Un tercer tipo de convergencia se conoce como convergencia en momento

si lim E [(|Xn − X|)r ] = 0. Particularmente, si r = 1 suele decirse que la suce-

si lim Fn (x) = F (x) para todo x.

Figura 1.2: Relaciones entre algunos tipos de convergencia de variables aleato-

para t ∈ R y φ(t) función caracterı́stica de la variable aleatoria X, continua en

para t real en algún intervalo alrededor de cero y M (t) función generatriz de

siendo c una constante, Fn (x) la función de distribución de Xn y F (x) una

1.4 Caracterı́sticas generales de algunas estadı́s-

uso frencuente que bajo la garantı́a de la existencia de determinados momen-

Teorema 1.4.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

El tamaño de la muestra es un elemento substancial tanto para las disquisi-

Teorema 1.4.3 (Ley débil de los grandes números). Si X1 , X2 , . . . , Xn

La nota de la demostración del teorema anterior, destaca el hecho de que

Modiﬁcando parcialmente las condiciones del teorema 1.4.3 en el sentido de

Teorema 1.4.4 (Teorema de Khintchine). Si X1 , X2 , . . . , Xn es una mues-

De manera más general, la convergencia en probabilidad de los momentos

Teorema 1.4.5. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

Para cerrar esta relación de teoremas que giran alrededor de la idea de la

Teorema 1.4.6. Si X1 , X2 , . . . es una sucesión de variables aleatorias tales que

entonces la sucesión de variables aleatorias {Zn } converge en distribución a una

siendo fi (x) la función de densidad de la variable aleatoria Xi , i = 1, 2, . . .

Corolario 1.4.12.1. Cuando la sucesión de variables aleatorias constituye una

Teorema 1.4.13. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

Teorema 1.4.14. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

Con supuestos menos taxativos, el promedio y la varianza muestrales pre-

Teorema 1.4.15. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

La expresión usual de la varianza muestral incluye el promedio de la muestra,

Teorema 1.4.16. Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población

En sı́ntesis, es claro que el promedio y varianza de la muestra son estadı́sticas

1.5 Estadı́sticas de orden

Xn,n : máximo de la muestra

1.5.1 Distribución de las estadı́sticas de orden

FX1,n (y) = 1 − [1 − FX (y)]n

Teorema 1.5.2. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población

para 1 ≤ j < k ≤ n, con c(n, j, k) = n!/[(j − 1)!(k − j − 1)!(n − k)!]. La función

Ejemplo 1.5.1. Siendo X1 , X2 , . . . , Xn una muestra aleatoria de una población

como las variables Y1 , Y2 , . . ., Yntienen