Ej y Prob Bioestad Lección 5

Autor: Jorge Maza V Apuntes de Bioestadística.
Lección 5 Página 1 de 35
LECCIÓN 5.
ESTIMACIÓN.
Hasta este momento hemos estado viendo distribuciones discretas y continuas en

donde asumimos que conocemos el tipo de distribución ya sea binomial ó Poisson
o Normal y hemos estado trabajando con el comportamiento de los datos de
acuerdo a las propiedades de cada distribución, sin embargo ésto en la realidad es
lo menos frecuente, lo habitual es que tengamos una serie de datos a partir de los
cuales tenemos que inferir las propiedades de la distribución de la cual
provienen. Esto proceso de inferencia por lo general se hace de manera inductiva
más que deductiva y para ello se exploran diversos modelos de probabilidad para
ver cuál de ellos se ajusta mejor a los datos.
La estadística inferencial se divide en dos grandes áreas: la estimación que se

ocupa de determinar los parámetros de una población específica; y las pruebas
de hipótesis que se ocupan de probar si el valor de los parámetros de una
determinada población es igual a un valor específico.
Para que se entienda lo anterior pongamos un ejemplo. Imaginemos que tomamos

las medidas de peso y talla de un grupo de niños indígenas de entre 5 y 7 años de
edad de la sierra chiapaneca y creemos que la distribución subyacente es normal.
¿Cómo podemos estimar los parámetros (μ, σ2) de tal distribución si no existen
datos previos de esta población?
Cuando estamos tratando de obtener números específicos como parámetros

estimados nos estamos refiriendo a estimaciones puntuales. En ocasiones
estamos interesados en determinar un rango de valores entre los cuales es más
probable que caigan los valores de los parámetros, en este caso estamos tratando
de estimar el intervalo. Mientras más estrecho sea ese intervalo más precisa
sentiremos que fue nuestra estimación puntual; dicho de otro modo, no es lo
mismo que una estimación puntual del 5% (.05) caiga en un intervalo entre .04 y
.06 que entre .01 y .15
Relaciones entre la Población de estudio y la Muestra.

Imaginemos nuevamente que queremos medir el peso y la talla de niños indígenas
de un determinado lugar geográfico en la sierra chiapaneca. Si nos encontramos
con que el número total de niños de 5 a 7 años del lugar es de 100 lo ideal sería
pesarlos y medirlos a todos y así se podría determinar el promedio y la varianza
de la población con mucha exactitud. Pero si en lugar de ello quisiéramos
determinar los pesos y tallas de todos los niños de 5 a 7 años de todo el estado,
esta empresa sería casi imposible. Lo único que podemos hacer es tomar una
muestra aleatoria que sea representativa de la población para tratar de estimar
el promedio y la varianza (μ, σ2) de este grupo de niños.
Autor: Jorge Maza V Apuntes de Bioestadística. Lección 5 Página 2 de 35
Una Muestra Aleatoria es la selección de algunos miembros de una población

tales que cada miembro es independientemente escogido y tiene una probabilidad
de ser elegido mayor de 0.
Una Muestra Aleatoria Simple es una muestra aleatoria en la que cada miembro
del grupo tiene la misma probabilidad de ser elegido.
La Población de Estudio, de Referencia o Blanco es el grupo que se desea

estudiar. La Muestra Aleatoria es seleccionada de la población de estudio.
Un Número Aleatorio (o Dígito Aleatorio) es una variable aleatoria X que asume

valores 0, 1, 2,..., 9 con igual probabilidad. Entonces:
1
Pr( X = 0) = Pr( X = 1) = ... = Pr( X = 9) =
10
Una Tabla de Números Aleatorios es una colección de dígitos que satisfacen
las siguientes propiedades:
1.- Cada dígito 0, 1, 2, ..., 9 tiene las mismas probabilidades de ocurrir
2.- El valor de cualquier dígito es independiente del valor de cualquier otro dígito
en la tabla.
Una selección aleatoria es la que se lleva a cabo en una población ya existente

en donde los miembros seleccionados fueron elegidos en base a un método de
aleatorización, por ejemplo una tabla de números aleatorios.
Una asignación aleatoria es la que se lleva a cabo sobre los miembros elegibles
de una población conforme se van reclutando en el estudio, es decir la selección
se hace de manera anticipada, antes de conocer siquiera a los pacientes.
Un ensayo clínico aleatorizado es un tipo de investigación diseñado para

comparar diferentes tratamientos en donde los grupos de pacientes se definen
mediante asignación aleatoria. A este proceso de asignar diferentes tratamientos a
los pacientes de una misma población se le conoce comúnmente como
aleatorización. Es importante verificar que los individuos que conformen los
diferentes grupos de tratamiento tengan las mismas características, con el fin de
que los resultados puedan ser comparables.
La aleatorización en bloques es muy usada en los ensayos clínicos para

comparar 2 tipos de tratamiento y para ello se definen por adelantado “bloques” de
individuos de tamaño 2n, en donde para cada bloque n individuos se asignan
aleatoriamente al tratamiento A y n al tratamiento B, una vez “lleno” el primer
bloque se continúa con la asignación para el segundo bloque y así sucesivamente
hasta acabar con todos los bloques que se haya determinado utilizar con
anticipación. En caso se que existieran más de 2 tipos de tratamiento (k
tratamientos), los bloques serían de tamaño kn y se asignarían aletoriamente n

pacientes al primer tipo de tratamiento, n al segundo, n al tercero y así
sucesivamente hasta asignar n pacientes al kavo tratamiento para volver a
empezar con el siguiente bloque y hasta completar el número de bloques que se
hubiera considerado con anticipación necesario “llenar” para obtener el total de la
muestra del estudio. Los bloques pueden variar en tamaño, es decir la n del primer
bloque puede ser diferente a la n del segundo y ésta a la del tercero, etc. Esta
estrategia se utiliza con el fin de evitar que los clínicos adviertan el esquema de
aleatorización conforme el estudio transcurre y conciente o inconcientemente
traten de seleccionar el tipo de tratamiento que le corresponderá a cada paciente.
En algunos estudios clínicos se utiliza el procedimiento denominado

estratificación con el fin de dividir a los pacientes de un grupo en subgrupos o
estratos de acuerdo a características que se supone son importantes en el
resultado o desenlace de los pacientes. Las características que se utilizan a
menudo para establecer los estratos son la edad, el sexo, la raza o la condición
clínica del paciente. Obviamente la población de cada estrato es seleccionada o
asignada aleatoriamente con el fin de garantizar que los individuos que conforman
cada estrato sean comparables.
Otro tipo de estrategia que se utiliza para evitar sesgos en el manejo de los
individuos sometidos a un estudio clínico es el cegamiento. Se dice que un
estudio clínico es doble ciego cuando ni el médico tratante ni los pacientes
conocen el tratamiento que se está prescribiendo. Se dice que un estudio es ciego
simple cuando sólo los pacientes no conocen el tipo de tratamiento al que están
asignados, pero el clínico si.
Estimación de la Media de una Distribución: Regresando al problema de cómo

estimar la media y la varianza (μ, σ2) de la distribución subyacente del cual
teóricamente proviene la muestra que estamos estudiando, tenemos que hablar de
la estimación del valor de dichos parámetros, es decir de la estimación puntual
Estimación puntual de la media poblacional: Un estimador natural para la

media poblacional es la media muestral, ya bien conocida para nosotros:
n n
xi 1
X = ∑ = ∑ xi
i =1 n i =1 n
Sin embargo es importante señalar que mientras más grande sea el tamaño (n)
de nuestra muestra, más representativa de la media poblacional μ, será nuestra
media muestral x.
Para que la media muestral ( x ) pueda ser representativa de la media poblacional

( μ ) hay que concebir a nuestra muestra como representativa de todas las
muestras de tamaño n que puedan ser obtenidas de la población general que
queremos estudiar y entonces x debe ser vista como una variable aleatoria
representativa de la media de todas las posibles muestras de tamaño n que
pueden ser obtenidas de la población. Al ser x una variable aleatoria es
susceptible en si misma de tener una distribución a la que se le denomina
distribución muestral.
La distribución muestral de x es la distribución de los valores de x (x 1, x 2, x 3,

...., x k ) sobre todas las posibles muestras de tamaño n que podrían haber sido
seleccionadas a partir de la población de referencia. El promedio de todos estos
valores que puede asumir x , es decir, el promedio de todas las medias
muestrales ( o la media de las medias) cuando se obtiene a partir de un gran
número de muestras aleatorias de tamaño n se aproximará a la media poblacional
μ conforme el número de muestras seleccionadas se haga más grande. En otras
palabras el valor esperado de x en la distribución muestral es igual a μ.
Simplificado: Sean x1, x2, ... xn muestras aleatorias obtenidas de una determinada
población con media μ. El valor esperado para la media muestral x es E(x) = μ .
Debido a esta propiedad se considera a la media muestral x un estimador no

sesgado de la media poblacional μ; y aunque existen otros estimadores no
sesgados de μ como el promedio de la mediana y el valor promedio de los puntos
más grandes y mas pequeños de los datos de la muestra, la media muestral es la
que tiene la menor varianza si la distribución de la población de referencia es
normal, y por ello se le refiere a x como el estimador no sesgado de μ con la
menor varianza.
El Error Estandar de la Media o simplemente Error Estandar:
Si recordamos, cuando hablábamos de combinaciones lineales ( Lección 4) el

valor esperado de una combinación lineal es:
E ( L) = E (c1 X 1 + ... + cn X n ) = c1 E ( X 1 ) + ... + cn E ( X n ) que en palabras dice:
El valor esperado de la suma de n variables aleatorias es igual a la suma de los n

valores esperados respectivos
De manera análoga ocurre con la varianza de una combinación lineal:
Var ( L) = Var (c1 X 1 + ... + cn X n ) = c12Var ( X 1 ) + ... + cn2Var ( X n ) que dice:
La varianza de la suma de n variables aleatorias es igual a la suma de sus

respectivas varianzas, entonces:
L = ∑ i =1 ci X i
n
El valor esperado de una combinación lineal es:
n
E ( L) = ∑ i =1 ci E ( X i ) y la Varianza Var ( L) = ∑ ci Var ( X i ) de aquí que la
n 2
i =1
Varianza de la Media Muestral sea:
⎛ n 1 ⎞
Var ⎜ ∑ xi ⎟
Var ( x ) = ⎝ i =1 n ⎠
(Si nos fijamos la varianza de la Media viene a ser el
n
promedio de las varianzas de todas las medias muestrales) y aplicando las
propiedades de la combinación lineal de variables aleatorias tenemos:
⎛1⎞ ⎛ n 1 ⎞ n
1 ⎛ 1 ⎞ n
Var ( x ) = ⎜ ⎟ Var ⎜ ∑ xi ⎟ = ∑ Var ( xi ) = ⎜ 2 ⎟ ∑ Var ( xi )
⎝n⎠ ⎝ i =1 n ⎠ i =1 n2 ⎝ n ⎠ i =1
y como Var(xi) = σ2 entonces:
⎛ 1 ⎞ 2 ⎛ 1 ⎞ σ2
Var ( X ) = ⎜ 2 ⎟ (σ + σ + ... + σ ) = ⎜ 2 ⎟ (nσ ) =
2 2 2
⎝n ⎠ ⎝n ⎠ n
σ2
Si Var ( X ) = entonces la Desviación Estandar o Error Estandar de la Media
n
σ2 σ S
será Var ( X ) = = y es estimado por el cual representa la
n n n
estimación de la Desviación Estandar obtenida a partir de un conjunto de medias
muestrales obtenidas a su vez de muestras repetidas de tamaño n de una
población con una varianza subyacente σ2. (Ver Error Estándar en pagina de
Excel en donde se muestra un ejemplo con muestras de tamaño progresivamente
mayor).
El Error Estandar de la Media es, entonces, una medida cuantitativa de la

variabilidad existente entre las medias muestrales obtenidas a partir de muestras
repetidas de tamaño n provenientes de la misma población. Mientras más grande
sea el tamaño de las muestras, menor será la variabilidad entre sus medias y más
cercana estará nuestra estimación ( x ) de la verdadera media poblacional ( μ ).
Ejemplo tomado del Rosner:

Problema: Existe la teoría de que cuando una mujer ovula su temperatura

corporal aumenta aproximadamente 0.5°C con respecto a su temperatura basal.
Con el fín de determinar la temperatura basal de una mujer se tomó la temperatura
al momento de despertar durante los primeros 10 días después de la
menstruación y los valores obtenidos fueron los siguientes: 36.2°, 36.3°, 36.3°,
36.4°, 36.4°, 36.5°, 36.5°, 36.6°, 36.7°, 36.8° C. ¿Cuál es el mejor estimador de la
temperatura corporal basal subyacente (μ) de esta mujer ( es decir, durante la
mayor parte de su vida) y que tan certero es este estimador?
Solución: Lo ideal sería tomar muestras repetidas del mismo tamaño durante
varios periodos menstruales, pero hemos de aceptar que es muy probable que los
valores obtenidos fueran muy cercanos a los ya registrados, así que podríamos
hacer nuestra estimación a partir de la media muestral:
x = (36.2°+ 36.3°+ 36.3°+ ... + 36.8°) / 10 = 36.47° C
La varianza de nuestra muestra está dada por:

10
∑ (x − x )
i
2
(36.2 − 36.47) 2 + ... + (36.8 − 36.47) 2 0.321
Var ( x) = S 2 ( x) = i =1
= = = 0.0321
n 10 10
La desviación estándar de nuestra muestra está dada por:
S ( x) = Var ( x) = 0.0321 = 0.1791
El error estándar de la media o si se le quiere decir, la desviación estándar de la

distribución de nuestro estadístico (en este caso nuestra media muestral) está
dada por:
s 0.1791 0.1791
= = = 0.056°
n 10 3.1622
La verdadera media poblacional (μ) se encuentra aproximadamente entre dos
errores estándar (hacia arriba y hacia abajo) de la x [o si se prefiere, entre dos
desviaciones estándar (hacia arriba y hacia abajo) de la distribución de la media
muestral ¡OJO¡ no debe confundirse al error estándar de la media con la
desviación estándar de una observación individual (xi) ]. Entonces, en el caso que
nos ocupa la verdadera media (μ) de la temperatura corporal basal de esta mujer
está entre 36.47° ± 2 (0.056)° = (36.36° – 36.58°), así que cualquier elevación de
0.5° C por arriba de este rango puede significar que la mujer está ovulando.
El Teorema del Límite Central:
Si la distribución de valores subyacente de una muestra es normal se puede

demostrar que la media muestral también está en si misma distribuida
normalmente con una media μ y una varianza σ2/ n.
Este teorema se puede expresar diciendo:
Si X1, X2, ..., Xn son muestras aleatorias de una población con media μ y varianza
σ2, entonces para una n grande, X ∼ N ( , μ σ2 n) (lo que significa que la

media muestral está aproximadamente distribuida como una normal con una
media μ y una varianza σ2/ n) aún cuando la distribución subyacente de las
observaciones individuales en la población, no lo sea.
Se tiene una población de 200 pacientes recién nacidos cuyos pesos al nacimiento
oscilan entre 2,412 g y 3,430 g y se desea calcular la probabilidad de que el
promedio del peso de una muestra de 10 pacientes tomados a partir de dicha
población esté entre 2,626 y 3,376 g dado que la media poblacional es de 3,000 g
con una desviación estándar de 552 g.
Solución: Como se puede apreciar, en una muestra de sólo 10 pacientes, uno no

puede esperar que la distribución de los datos sea normal, pero en este caso se
puede aplicar el Teorema del Límite Central y asumir que el promedio de nuestra
muestra si tiene una distribución normal con una media μ = 3000 g y una
desviación estándar σ/√n = 552 / √10 = 552 / 3.1622 = 174.5 g. Entonces:
⎛ 3,376 − 3000 ⎞ ⎛ 2, 626 − 3000 ⎞

Pr(2, 626 ≤ x < 3,376) = φ ⎜ ⎟ −φ ⎜ ⎟ = φ (2.15) − φ (−2.14)
⎝ 174.5 ⎠ ⎝ 174.5 ⎠
= φ (2.15) − [1 − φ (2.14)] = .9842 − (1 − .9838) = .9842 − .0162 = .968
Esto significa que de todas las muestras de tamaño n = 10 que puedan tomarse a
partir de nuestra población de recién nacidos, el 96.8% de las medias se espera
que caigan entre el rango de 2,626 y 3,376 g.
Estimación de Intervalos con Varianza Conocida:
Con frecuencia es necesario obtener un intervalo de estimaciones plausibles de la

media de una distribución, así como el mejor estimador de su valor preciso.
Nuestro intervalo de estimaciones será exacto solamente si la distribución
subyacente es normal y sólo aproximadamente si la distribución subyacente no lo
es, tal y como lo establece el teorema del límite central.
Entonces, si μ y σ2 se conocen, el comportamiento de un conjunto de medias

muestrales tomadas a partir de un gran número de muestras de tamaño n podrá
también conocerse con precisión. El 95% de tales medias muestrales (x) caerá
( μ − 1.96σ / n < x < μ + 1.96σ / n ) . Dicho
dentro del intervalo
matemáticamente: Pr ( μ − 1.96σ / n < x < μ + 1.96σ / n ) = .95 y
respectivamente también Pr ( x − 1.96σ / n < μ < x + 1.96σ / n ) = .95
Un Intervalo de Confianza (IC) 95% para μ cuando σ2 se conoce, está dado

por:
( X − 1.96σ n , X + 1.96σ n) ó ( X ± 1.96σ n)
Un Intervalo con el 95% de Confianza significa que en el 95% de todos los

intervalos que se puedan construir a partir de muestras repetidas de tamaño n de
una población, éstos contendrán el parámetro μ.
Ejemplo tomado del Rosner: Del problema de la temperatura corporal basal de

una mujer, que vimos dos páginas atrás, obtuvimos que la media x = 36.47°C, y
que la desviación estándar s = 0.1791 ≈ 0.18°C. Un intervalo con el 95% de
confianza está entonces dado por:
x ± 1.96σ / n = 36.47° ± 1.96(.18) / 10 = 36.47° ± 0.11° = (36.36°,36.58°)
Con frecuencia uno puede estar interesado en obtener intervalos con niveles de
confianza distintos al 95%. El nivel de confianza puede ser expresado como
100% x (1-α), así si α = 0.05 entonces 100% x (1- 0.05) = 100% x 0.95 = 95%
I.P*: El α representa la parte que estamos dispuestos a perder en la campana de

una distribución normal, pero entre ambos lados de la campana, es decir, hacia las
colas y por ello el valor de α se divide entre 2 y se transforma en valores Z, de
hecho el valor 1.96 corresponde a 1-α/2 = 1 - 0.05/2 = 1 – 0.025 = 0.975.
Entonces de manera general un Intervalo con un 100% x (1-α) de confianza

equivale a la probabilidad de que todas las medias muestrales de tamaño n que se
puedan obtener a partir de una población caigan en el intervalo:
(μ − Z σ / n < x < μ + Z1−α /2σ / n
1−α /2 ) ; Dicho matemáticamente:
( )
Pr μ − Z1−α /2σ / n < x < μ + Z1−α /2σ / n = 1 − α y respectivamente
también ( )
Pr x − Z1−α /2σ / n < μ < x + Z1−α /2σ / n = 1 − α
Un IC 100% x (1-α) para μ está dado por:
( X ± Z1−α / 2σ n)
Es importante darnos cuenta que el que aumente el nivel de confianza, no
necesariamente significa que se está siendo más estricto en la estimación del
rango de valores entre los que puede encontrarse la verdadera media poblacional
(μ), sino lo contrario. El hecho de utilizar más un intervalo con 95% de confianza
se debe a que él representa el espacio contenido por dos (1.96) desviaciones
estándar hacia arriba y hacia abajo de la media de una distribución normal.
Si nos fijamos en la fórmula de arriba nos percataremos que la amplitud de un

intervalo con 100% x (1-α) de confianza es igual a 2 Z1−α /2σ n y está
determinado por el tamaño de n, σ y α.
Estos son los Factores que afectan la amplitud de un Intervalo de Confianza:
n. Conforme el tamaño de la muestra (n) aumenta, la amplitud del IC disminuye
σ. Conforme la desviación estándar (σ), que refleja la variabilidad de las

observaciones individuales, aumente, la amplitud del intervalo de confianza
también aumentará.
α. Conforme la confianza deseada aumente (α desciende), la amplitud del

intervalo de confianza también aumentará.
Para podernos percatar de esto, vamos a utilizar el mismo ejemplo de la

temperatura corporal basal de una mujer, pero modificando la muestra y la
desviación estándar. En el primer caso asumiremos que la media x = 36.47°C, y
que la desviación estándar s = 0.1791 ≈ 0.18°C, pero aumentaremos la n que
ahora en vez de 10 días será de 100 días. El intervalo con un 95% de confianza
para estos parámetros es:
x ± 1.96σ / n = 36.47° ± 1.96(.18) / 100 = 36.47° ± 0.03° = (36.44°,36.50°)

Si lo comparamos con el que teníamos antes, cuando nuestra muestra era de 10
días (36.36°,36.58°) nos percataremos que nuestro intervalo disminuyó en

amplitud.
Ahora vamos a modificar la desviación estándar y asumiremos que la media x =

36.47°C, que la n = 10 y que la desviación estándar en vez de s = 0.1791 ≈
0.18°C, ahora será s = 0.36°C. Nuestro intervalo con un 95% de confianza con
estos parámetros será:
x ± 1.96σ / n = 36.47° ± 1.96(.36) / 10 = 36.47° ± 0.22° = (36.25°,36.69°)
Como podemos ver, comparativamente con el IC original (36.36°,36.58°) al

aumentar la desviación estándar (s) la amplitud del intervalo también aumentó.
Ahora bién, como ya habíamos dicho antes, un IC nos sirve para darnos idea del
rango en el que probablemente esté contenida la verdadera media poblacional (μ),
y esta característica puede tener usos prácticos como en el siguiente ejemplo
también tomado del Rosner.
Supongamos que el promedio poblacional (μ) del nivel de colesterol en niños de 2

a 14 años de edad es de 175 mg/dL y que la desviación estándar poblacional (σ)
es de 30 mg/dL. Se desea saber si el nivel de colesterol en un grupo de niños en
ese rango de edades y cuyos padres tienen niveles de colesterol ≥ 250 mg/dL y
sufren de cardiopatía isquémica, tienen niveles de colesterol más elevados que los
niños sin esos antecedentes familiares y en caso de que lo sean, si el promedio o
media muestral es realmente distinto a la media poblacional.
Supongamos también que después de haber muestreado a 100 niños con

antecedentes familiares positivos nos encontramos que el promedio del nivel de
colesterol es x = 207.3 mg/dL.
Solución: Una manera de evaluar si el promedio encontrado es realmente

diferente del poblacional es hacer un intervalo con el 95% de confianza utilizando
nuestros datos y la desviación estándar poblacional y ver si en el rango está
contenida la media poblacional (μ = 175). Si lo está, no podemos decir que
nuestra media muestral x = 207.3 mg/dL es diferente, pero si no lo está entonces
podemos inferir que existe cierta predisposición familiar a tener niveles más
elevados de colesterol y por ende un mayor riesgo a sufrir en el futuro cardiopatía
isquémica. Entonces, nuestro IC al 95% es:
x ± Z 0.975σ / n = 207.3 ± 1.96(30) / 100 = 207.3 ± 5.88 = (201.42, 213.18)
Como podemos ver la media poblacional de 175 mg/dL está muy por debajo del
límite inferior de nuestro IC, luego entonces, es muy probable que exista
predisposición familiar con respecto al nivel de colesterol.
La Distribución t:
Cuando estuvimos viendo la Distribución Normal (Lección 4) dijimos que se

podía hacer la Conversión de una distribución normal N(μ, σ2) a una distribución
normal estándar N(0,1) mediante un proceso comúnmente conocido como
“estandarización” y que consiste en transformar los valores de cualquier
distribución normal a “valores z” restándole a nuestro valor la media (μ) y
dividiéndolo por la desviación estándar (σ), entonces:
(X − μ)
Si X ~ N (μ ,σ 2 ) y Z= entonces Z ~ N (0,1)
σ
De la misma forma hasta ahora hemos estado construyendo intervalos de

confianza para la media de una distribución normal cuando la varianza se conoce,
y hemos asumido que si las observaciones individuales provienen de una
distribución subyacente normal con una media μ y una varianza σ2, entonces:
(x − μ )
∼ N ( 0 , 1)
⎛ σ ⎞ que dice que el valor obtenido de la diferencia entre la
⎜ ⎟
⎝ n ⎠
media muestral y la media poblacional dividido por el error estándar, tiene una
distribución normal estándar, lo cual está sustentado por el teorema del límite
central. Sin embargo debemos reconocer que esta situación es de alguna manera
artificial, pues la mayoría de las veces la varianza poblacional (σ2) de nuestros
datos no se conoce.
Ya que tampoco conocemos la desviación estándar poblacional (σ) parece

razonable estimar σ a partir de la desviación estándar de nuestra muestra s y
tratar de construir intervalos de confianza usando la cantidad:
(x − μ )
⎛ s ⎞ el problema es que ya no se puede asumir que esta cantidad esté
⎜ ⎟
⎝ n ⎠
normalmente distribuida.
William Gossett, alias “Student”, en 1908, se percató de que la forma de una

distribución dependía del tamaño de la muestra (n), al igual que ocurre con la
forma de las distribuciones normales. En la siguiente figura, que ya habíamos visto
en la lección anterior, se puede apreciar esto:
Figura 5.1. Todas estas

distribuciones son normales,
tres de ellas, las del centro,
tienen como media (μ) 0, y su
forma y varianza difieren
primordialmente en base al
tamaño de la muestra (n).
La curva verde corresponde a

una distribución normal
estándar con μ = 0 y varianza
σ2 = 1
(x − μ )
La distribución ⎛ s ⎞ se conoce como la “Distribución t de Student” y no
⎜ ⎟
⎝ n ⎠
se trata de una sola distribución sino de una familia de distribuciones que están
indexadas por un parámetro que se denominó grados de libertad (gl ó df) de la
distribución y que está directamente relacionado con el tamaño de la muestra.
Figura 5.2
La figura
corresponde a la
gráfica de la
función de
densidad de la
probabilidad. Se
puede apreciar
que la forma de la
distribución (t de
Student), depende
del tamaño de la
muestra. Conforme
k aumenta la
forma es más parecida a la de la distribución normal.
La figura siguiente (5.3) corresponde a la gráfica de la función de distribución de

la probabilidad, y a diferencia de lo que pasa con la gráfica de esta misma función
en el caso de una distribución normal, aquí se puede apreciar que no se trata de

una sola curva, sino de varias (lo que corresponde a una “familia”) que cambian en
su forma de acuerdo al tamaño de la muestra, en este caso representada por “k”.
Figura 5.3. Función de distribución de la probabilidad.
Entonces podemos decir que la distribución t (de Student) es una distribución de

probabilidad que surge del problema de estimar la media de una población
normalmente distribuida cuando el tamaño de la muestra es pequeño. La
distribución t surge, en la mayoría de los estudios estadísticos prácticos, cuando la
varianza o la desviación estándar de una población se desconoce y debe ser
estimada a partir de los datos de una muestra, de tal manera que:
⎛ X −μ ⎞
∼ N ( μ , σ 2 ) y son independientes, entonces ⎜
Si X1, X2, ..., Xn ⎟ está
⎝S/ n⎠
distribuida como una distribución t con (n-1) grados de libertad (df).
De manera análoga a como ocurre en una distribución normal, podemos decir

que:
La 100 x uava percentila de una distribución t con d (degrees) grados de

libertad está denotada por td,u de tal forma que:
Pr(td < td,u) ≡ u (siendo u el área bajo la curva de la distribución t con d grados
de libertad).
Ejemplo: La notación t20,95 hace referencia a la 95ava percentila de la distribución t

con 20 grados de libertad.
Si comparáramos una distribución t con una distribución normal estándar nos

percataríamos de que aunque las dos distribuciones son simétricas al 0, la
distribución t es más dispersa que la distribución N(0,1) (de manera similar a lo
que ocurre con la curva azul en relación a la verde, de la figura 5.1) de tal manera
que para cualquier α, en donde α > 0.5, td, 1-α es siempre mayor que la percentila
correspondiente de una distribución N(0,1). Sin embargo, conforme d (los grados
de libertad) se hacen mayores, la distribución t tiende a converger hacia una
distribución N(0,1). Esto podemos apreciarlo en la siguiente tabla en donde están
consignados los grados de libertad (d), el valor correspondiente de la 97.5ava
percentila de una distribución t (td,.975), y el valor correspondiente de la 97.5ava
percentila de una distribución normal estándar (z.975)
d td, .975 z.975 Una explicación para este

comportamiento es que la
4 2.776 1.96 varianza muestral (s2) de una
distribución es una
9 2.262 1.96 aproximación de la varianza
poblacional (σ2). Conforme el
29 2.045 1.96 tamaño de la muestra (n) se
hace mayor, esta
60 2.0 1.96 aproximación es cada vez
más precisa hasta que s2
∞ 1.96 1.96 converge exactamente en σ2.
La diferencia entre la distribución t y la distribución normal es mayor para los

valores pequeños de n (n < 30).
Al igual que ocurre con la distribución normal, la distribución de probabilidad de

la función de densidad tn(x) está dada por la expresión: Pr(tn < x ), en donde el
subíndice n representa, en este caso, los grados de libertad (que también se
expresa con frecuencia como n-1)
Para el cálculo de esta función de densidad existen distintos tipos de Tabla de

distribución t de Student, en la que para diferentes valores de n (grados de
libertad) y de x (que viene a ser la fracción de la desviación estándar hacia uno y
otro lado del 0 ó centro de la curva y por lo tanto, puede tener valores positivos o
negativos) se puede buscar su probabilidad acumulada p o Pr. La tabla de
distribución para el cálculo de la probabilidad tiene dos márgenes, el superior en
donde están estipulados los grados de libertad (denotados por n) y el margen
lateral izquierdo en donde está el valor de x (que equivaldría la valor z en las
tablas de distribución normal). Para acceder a la tabla seguir este vínculo.
Ejemplos: ¿Cuál es la probabilidad acumulada de una distribución t de Student

con 9 grados de libertad para un valor de x < 0.75?. En términos matemáticos lo
que queremos saber es Pr(t9 < 0.75)
Solución: Para ello buscamos en la tabla el valor 9 en las columnas y el valor 0.75
en los renglones y esto nos da una probabilidad de 0.764; entonces:
Pr(t9 < 0.75) = 0.764 en Diagrama:
Si nos fijamos, en la tabla solamente podemos encontrar probabilidades para

valores de x mayores de 0. Entonces ¿cómo podemos calcular la probabilidad
para valores negativos de x?. Pues, de la misma forma como lo hacíamos para
obtener la probabilidad acumulada de los valores de z en la distribución normal.
Debemos recordar que la distribución t de Student es simétrica con respecto a su

media que es x = 0, y que la suma de probabilidades acumuladas para valores
mayores y menores de x siempre es igual a 1. Esto es:
Pr(tn < x ) + Pr(tn > x ) = 1 en diagrama:
Si despejamos Pr(tn > x ) de la expresión anterior, tenemos:
Pr(tn > x ) = 1 - Pr(tn < x )
y aplicando la propiedad de simetría de la distribución t con respecto a su media

x = 0, sabemos que la probabilidad acumulada a la izquierda de –x es igual a la
probabilidad acumulada a la derecha de +x, es decir:
Pr(tn < - x ) = Pr(tn > x ) en diagrama:
Substituyendo Pr(tn > x ) por Pr(tn < - x ) en la expresión anterior tenemos:

Pr(tn < - x ) = Pr(tn > x) = 1 - Pr(tn < x )
Ejemplo: ¿Cuál es la probabilidad acumulada de una variable con distribución t de

Student con 6 grados de libertad que tenga un valor de x < -1.45?
Solución: Pr(t6 < -1.45) = Pr(t6 > 1.45) = 1- Pr(t6 < 1.45) = 1 – 0.901 = 0.099
¿ Como calcular la Probabilidad de t > x cuando x > 0?
En el apartado anterior ya, de alguna manera, vimos este caso. Lo que queremos
en términos matemáticos es:
Pr(tn > x) cuando x > 0. En diagrama:
Para calcularlo ya sabemos que: Pr(tn < x ) + Pr(tn > x ) = 1, despejando nos
queda:
Pr(tn > x ) = 1- Pr(tn < x )
Ejemplo: ¿Cuál es la probabilidad acumulada para x > 2.45 en una distribución t

de Student con 15 grados de libertad?
Solución: Pr(t15 > 2.45 ) = 1- Pr(t15 < 2.45) = 1 – 0.986 = 0.014
¿Como calcular la Probabilidad de t > x cuando x < 0?
En términos matemáticos lo que queremos es:
Pr(tn > -x), en diagrama:

Para calcularlo partimos de la propiedad de simetría de la función de densidad de

la distribución t de Student:
Pr(tn < - x ) = Pr(tn > x ) en diagrama:
De manera recíproca: Pr(tn > - x ) = Pr(tn < x ), en forma diagramática sería:
Ejemplo: ¿Cuál es la probabilidad acumulada para x > - 1.95 en una distribución t

Solución: Pr(t9 > -1.95) = Pr(t9 < 1.95) = 0.959
¿Como calcular la Probabilidad de x1 < t < x2 ?
Aquí lo que queremos calcular es la probabilidad de que una variable se encuentre

entre dos valores x1 y x2.. Expresado en términos matemáticos es:
Pr(x1 < tn < x2), en diagrama:
El procedimiento es análogo a lo que hacíamos cuando trabajamos con

distribuciones normales y valores z, entonces:
Pr(x1 < tn < x2) = Pr(tn < x2) – Pr(tn < x1)
Para ello se buscan por separado los valores de x1 y x2 y se restan.

Ejemplo: ¿Cuál es la probabilidad acumulada para una variable con distribución t

de Student de 25 grados de libertad que se encuentre entre x1 = 0.75 y x2 = 1.25 ?
Solución:
Pr(0.75 < t25 < 1.25) = Pr (t25 < 1.25) – Pr (t25 < 0.75) = 0.889 – 0.770 = 0.119
Interpolación lineal:
Cuando el valor de x no se encuentre en la tabla, pero tengamos la posibilidad de

conocer dos valores, uno mayor y otro menor de x, podemos calcular el valor casi
exacto de x mediante la interpolación lineal. Esto diagramáticamente es:
La expresión:
( x − x1 )
y= ( y2 − y1 ) + y1
( x2 − x1 )
nos permite calcular los valores no
contenidos en la tabla, pero siempre
añade un cierto error cuando se
substituye la función y = f(x) por la
ecuación de la recta que pasa entre
dos puntos conocidos y = r(x), por ello
es conveniente que los puntos x1 y x2
estén lo más próximos posible.
( x − x1 )
Si nos fijamos, la expresión: y= ( y2 − y1 ) + y1 es por completo
( x2 − x1 )
similar a la ecuación de la recta que pasa por dos puntos con intersección en el
eje de las ordenadas: y = mx + b en donde m representa la pendiente de la recta
y −y
que se calcula por trigonometría como m = 2 1 ; si reordenamos los términos de
x2 − x1
( y2 − y1 )
la expresión original quedaría: y= ( x − x1 ) + y1 .
( x2 − x1 )
Ejemplo: ¿Cuál es la probabilidad acumulada para x < 0.87 en una distribución t

Solución: Expresado matemáticamente hay que calcular Pr(t10 < 0.87), pero
resulta que el valor de x = 0.87 no viene en las tablas, pero si está el valor para
x1 = 0.85 y para x2 = 0.90. Entonces buscamos:
Pr (t10 < 0.85) = 0.792 y Pr(t10 < 0.90) = 0.805
Si concebimos que y = f(x) entonces sabemos que a cada valor de x le

corresponde un solo valor de y, y en un plano cartesiano pondremos los valores
de x (que corresponden a la fracción de la desviación estándar de una distribución
t de Student) en el eje de las abscisas, y en el eje de las ordenadas los valores de
y que corresponden a los valores de las respectivas probabilidades acumuladas,
es decir, como si hiciéramos la gráfica de la función de distribución de la
probabilidad (Fig. 5.3). De ahí nos queda:
x = 0.87, x1 = 0.85, x2 = 0.90
y = ?, y1 = 0.792 y2 = 0.805
( y 2 − y1 ) (0.805 − 0.792)
y= ( x − x1 ) + y1 = (0.87 − 0.85) + 0.792
( x2 − x1 ) (0.90 − 0.85)
0.013 0.00026
= (0.02) + 0.792 = + 0.792 = .0052 + 0.792 = 0.7972
0.05 0.05
Entonces: Pr (t10 < 0.87) = 0.7972
Tabla INVERSA de la distribución t de Student.
En la práctica resulta que es más frecuente la necesidad de conocer la fracción de

la desviación estándar (el valor de x ) sabiendo cuál es la probabilidad (Pr o más
frecuentemente designada por: p) y los grados de libertad (denotados por: n, d ó
n-1). Para ello se utiliza la Tabla Inversa de la distribución t de Student. En ella,
en el margen superior se encuentra la probabilidad acumulada y en el margen
izquierdo los grados de libertad. Para acceder a ella seguir este vínculo.
Entonces, de la expresión: Pr(tn < x) = p lo que queremos encontrar es x,

conociendo n y p.
Ejemplo: ¿Cuál es el valor de x de una distribución t de Student con 5 grados de

libertad y una probabilidad acumulada del 85%?. Expresado matemáticamente lo
que queremos saber es Pr(t5 < x) = 0.85.
Solución: Para ello buscamos en la Tabla Inversa sobre la columna del 0.85 y en
la fila correspondiente a 5 grados de libertad y obtenemos:
x = 1.155768
La Tabla Inversa para la distribución t de Student, por lo general no llega a más

de 120 grados de libertad. Para valores mayores de n hay que recordar que
cuando n tiende a infinito (∞) su límite es la distribución normal de media 0 y
varianza 1, es decir la distribución normal estándar. Expresado matemáticamente:
lim
tn ( x) = N (0,1) Por lo tanto se puede hacer una aproximación de la
n→∞
distribución t de Student de n grande a través de la tabla de
distribución normal estándar.
Estimación de Intervalos de Confianza con Varianza Desconocida:
De manera similar a como lo hicimos cuando si conocíamos la varianza, podemos

decir que:
Un IC 100% x (1-α) para la media μ de una distribución normal con varianza

desconocida está dado por:
( X ± tn −1,1−α / 2 S n) o bien, que la probabilidad...
(
Pr x − tn −1,1−α /2 s / n < μ < x + tn −1,1−α /2 s / n = 1 − α )
Imaginemos nuevamente que tenemos una población de 200 bebés recién

nacidos, cuya μ = 3,000 g y su σ = 552 g. Sin embargo sin conocer estos
parámetros, un investigador tomó una muestra de 10 bebés cuyos pesos,
promedio y desviación estándar, fueron los siguientes:
Ahora calculemos un intervalo al 95% de confianza

Individuo Peso en g. para la media poblacional (μ), asumiendo que la
varianza poblacional (σ2) es desconocida y por lo
1 2599 tanto usaremos nuestro error estándar calculado a
partir de la desviación estándar de nuestra muestra
2 3135 (s):
3 3752
( X ± t n −1,1−α / 2 S n) =
4 2090
5 2653 ( 3133 ± t 9,0.975 (581.5) / 10 = )

6 3966 ( 3133 ± 2.262(581.5) / 3.1622 ) =
7 2894
( 3133 ± 415.96 ) = ( 2717.04, 3548.96 )
8 3618
9 3377 Por lo general los intervalos de confianza con base

en la distribución t (varianza poblacional
10 3243 desconocida) son más amplios que los que se
calculan con base en la distribución normal (varianza
x = 3133 poblacional conocida). Dicho de otro modo, el rango
de valores posibles para la media poblacional (μ)
s= 581.5 será más amplio al ser calculado en base a la
distribución t, sin embargo esto no es siempre cierto, pues puede darse el caso de
que la varianza particular de una muestra (s2) sea menor que la varianza
poblacional (σ2).
Estimación de la Varianza de una Distribución.
Estimación Puntual: De la misma manera como cuando hicimos la estimación

puntual de la media poblacional y utilizando la misma lógica podemos decir que:
Si X1, X2, ..., Xn son muestras aleatorias de una población con media μ y varianza
σ2, la Varianza de la Muestra: s2 es un estimador no sesgado de σ2 sobre
todas las muestras aleatorias de tamaño n que puedan ser obtenidas a partir de
esta población. Esto es, el valor esperado de la varianza muestral es la varianza
poblacional (E(s2) = σ2). Dicho de otra forma, si se toman muestras repetidas de
tamaño n a partir de una misma población y se calcula la varianza de cada
muestra (s2), el promedio de un gran número de varianzas de tales muestras de
tamaño n será la varianza poblacional (σ2)
Entonces:
La estimación puntual de la varianza poblacional es la varianza de la muestra

que está dada por:
1 n
s =
2
∑
n − 1 i =1
( X i − X )2 En palabras: es la sumatoria de los cuadrados de
las diferencias entre los valores individuales y el promedio, dividido entre el

número total de las observaciones o eventos menos 1.
La distribución Xi Cuadrada.
En párrafos anteriores ya hemos visto como estimar intervalos de confianza para

la media de una distribución normal. Ahora veremos como estimar estos intervalos
de confianza pero para la varianza. Una vez más, al igual que en el caso de la
media, la estimación de los intervalos de confianza para la varianza solamente
serán exactos si la distribución subyacente es normal. De no ser así, los intervalos
de confianza para la varianza serán mucho menos exactos que los calculados
para la media y hay que proceder entonces con cautela.
Así como para calcular los intervalos de confianza para la media cuando nuestra
muestra es limitada, tuvimos que utilizar la distribución t; para poder calcular los
intervalos de confianza para la varianza, tenemos que utilizar una nueva familia
de distribuciones: la distribución Xi cuadrada. (se pronuncia ji cuadrada)
Como puede apreciarse en la fórmula de la varianza (s2) la parte fundamental son

las diferencias encontradas entre cada valor y el promedio, elevadas al cuadrado
n
y si esto lo estipulamos así: G = ∑ X i2 en donde X1, X2, ..., Xn ∼ N (0,1) y los

i =1
eventos son independientes, entonces G sigue una distribución de Xi-cuadrada
con n ó k grados de libertad (df o gl). La distribución se denota por Xn2 , por Xk2
y en otras ocasiones como Xn-12 y como está constituida por cuadrados solamente
tiene valores positivos y generalmente está sesgada a la derecha. Esto puede
apreciarse en la Fig. 5.4 que corresponde a la gráfica de la función de densidad de
probabilidad.
En realidad la distribución ji-cuadrada es la distribución muestral de s2. O sea que

si se extraen todas las muestras posibles de una población normal y a cada
muestra se le calcula su varianza, se obtendrá la distribución muestral de
varianzas ó Xn2.
Fig. 5.4. Función de densidad de la

probabilidad de la distribución X2k.
k representa los grados de libertad

de la variable aleatoria, y como
puede apreciarse la distribución
solo tiene valores positivos (pues
son cuadráticos) y está sesgada a
la derecha, excepto para valores
de k (grados de libertad) muy
grandes (mayores de 100) en
donde la distribución se vuelve
más simétrica.
La siguiente figura corresponde a la gráfica de la función de distribución de la

probabilidad.
Fig. 5.5. Función de distribución de

la probabilidad.
k representa los grados de libertad

de la variable aleatoria.
Nuevamente hay que notar que la
función solo existe para valores
positivos.
Debido a que la forma de la distribución está regida por k ó n ó n-1 (los grados
de libertad) el valor esperado de una distribución X2n es precisamente n ó k ó
(n-1) y su varianza es 2n ó 2k ó 2(n-1). Entonces:
E(X2n) = n V(X2n) = 2n donde n = grados de libertad (gl)
Propiedades de las distribuciones ji-cuadrada
1. Los valores de X2 son mayores o iguales que 0.

2. La forma de una distribución X2 depende de gl=n-1. En consecuencia, hay
un número infinito de distribuciones X2.
3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se
extienden a la derecha; esto es, están sesgadas a la derecha.
5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1).
6. El valor modal de una distribución X2 se da en el valor (n-3).
Estimación de Intervalos de Confianza para la Varianza.
Así como lo hicimos con la media poblacional (μ) para estimar intervalos de
confianza a través de la media muestral (x), para estimar intervalos de confianza
para la varianza poblacional (σ2), necesitamos encontrar la distribución muestral
de nuestra varianza (s2).
Si recordamos de lo ya visto cuando hablábamos de la distribución normal, si una
variable aleatoria X tenía una distribución normal con media μ y varianza σ2,
nosotros podíamos crear una nueva variable Z a través del proceso de
estandarización que consistía en restarle a nuestra variable la media poblacional y
dividirla entre la desviación estándar poblacional, y de esa forma teníamos una
variable con una distribución normal estándar, con media 0 y varianza 1.
Expresado matemáticamente:
(X − μ)
Si X ~ N (μ ,σ 2 ) y Z= entonces Z ~ N (0,1)
σ
Bien, pues de manera análoga lo podemos hacer con una variable cuadrática a la
que llamaremos yi2 y que representará a todas las varianzas de las muestras que
podamos tomar de una población subyacente que suponemos tiene una
distribución normal, de tal forma que:
n n
( xi − μ ) 2 n
Si X ~ N (μ ,σ 2 ) y ∑y =∑
i =1
2
i
i =1 σ 2 entonces ∑y
i =1
2
i ∼ X n2 ,
es decir una distribución Xi cuadrada con n grados de libertad.

Sin embargo debido a que habitualmente no conocemos la media poblacional (μ),

utilizamos nuestra media muestral (x) para estimar μ, pero cuando substituimos μ
por x, al igual que nos pasó con la distribución t de Student, ya no podemos
asumir que la distribución subyacente es normal y entonces perdemos un grado
de libertad, de tal forma que si antes:
n
( xi − μ ) 2 n
( xi − x ) 2
∑
i =1 σ 2
∼X 2
n ahora ∑
i =1 σ 2
∼ X n2−1 [1]
A continuación vamos a hacer una serie de manipuleos matemáticos para llegar

a la fórmula para calcular intervalos de confianza para la varianza poblacional (σ2).
Si nos fijamos en las fórmulas anteriores, en particular la de la derecha, veremos

que esta nos recuerda a la fórmula de la varianza muestral:
∑(X i − X )2 n
s =
2 i =1
de aquí podemos pasar a (n − 1) s = ∑ ( X i − X ) 2
2
n −1 i =1
n
Si ahora substituimos ∑(X
i =1
i − X )2 por (n − 1) s 2 en [1] tenemos:
(n − 1) s 2 σ2
∼X 2
n −1 de aquí podemos pasar a s ∼ 2
X n2−1
σ2 (n − 1)
Esta última fórmula dice que la varianza muestral tiene una distribución Xi
σ2
cuadrada con n-1 grados de libertad multiplicada por la constante
(n − 1)
Ahora bien, si recordamos cuando hacíamos intervalos de confianza para la media

poblacional μ con varianza conocida (σ2) decíamos que:
Un Intervalo con el 95% de Confianza significa que en el 95% de todos los

intervalos que se puedan construir a partir de muestras repetidas de tamaño n de
una población, éstos contendrán el parámetro μ; y puesto que se trata
necesariamente de una distribución normal el 95% de tales medias muestrales (x)
caerá dentro del intervalo ( μ − 1.96σ / n < x < μ + 1.96σ / n . Dicho )
matemáticamente: (
Pr μ − 1.96σ / n < x < μ + 1.96σ / n = .95 y )
respectivamente también (
Pr x − 1.96σ / n < μ < x + 1.96σ / n = .95 )
Entonces, un Intervalo de Confianza (IC) 95% para μ cuando σ2 se conoce,
está dado por:
( X − 1.96σ n , X + 1.96σ n) ó ( X ± 1.96σ n)
O, de manera general, un Intervalo con un 100% x (1-α) de confianza equivale a la

probabilidad de que todas las medias muestrales de tamaño n que se puedan
obtener a partir de una población caigan en el intervalo:
( μ − Z σ / n < x < μ + Z σ / n ) ; Dicho matemáticamente:
1−α /2 1−α /2
Pr ( μ − Z σ / n < x < μ + Z σ / n ) = 1 − α y respectivamente

1−α /2 1−α /2
también Pr ( x − Z σ / n < μ < x + Z σ / n ) = 1−α

1−α /2 1−α /2
Regresando a la distribución Xi2 y habiendo entendido lo anterior, podemos

actuar de manera análoga para obtener intervalos con el 100% x (1-α) de
confianza para la varianza muestral (s2), de manera que:
⎛ σ 2 X n2− 1,α / 2 σ 2 X n2− 1,1 − α / 2 ⎞

P r ⎜⎜ < s < ⎟⎟ = 1 − α
2
⎝ n −1 n −1 ⎠
Pero como lo que nos interesa es obtener intervalos con el 100% x (1-α) de
confianza para la varianza poblacional (σ2) que no conocemos y que
pretendemos estimar a partir de nuestra varianza muestral (s2), vamos a
manipular la desigualdad o inequidad anterior de manera similar a lo que hacemos
con las igualdades, equidades o ecuaciones; utilizaremos sólo la de la izquierda,
pues la inequidad derecha es similar:
σ 2 X n2−1,α / 2
< s2 de aquí podemos pasar a: σ 2 X n2−1,α / 2 < ( n − 1) s 2
n −1
( n − 1) s 2
y, de esta última a:
σ < 2
2
de manera análoga la inequidad derecha
X n −1,α / 2
( n − 1) s 2
quedaría así:
< σ 2
y combinándolas tenemos:
X n2−1,1−α / 2
( n − 1) s 2 ( n − 1) s 2
2
<σ 2
< y de aquí podemos decir que la
X n − 1,1 − α / 2 X n2− 1,α / 2
probabilidad de que la varianza poblacional (σ2) se encuentre entre estas dos
desigualdades es igual a 1-α:
⎡ ( n − 1) s 2 ( n − 1) s 2 ⎤
Pr ⎢ 2 <σ 2
< ⎥ =1−α
2 , entonces:
⎣⎢ X n − 1,1 − α / 2 X n − 1,α / 2 ⎦⎥
Un intervalo al 100% x (1-α) de confianza para σ2 está dado por:

⎡ ( n − 1) s 2 ( n − 1) s 2 ⎤
⎢ X 2 ,
X n2− 1 ,α / 2 ⎥⎦
⎣ n − 1,1 − α / 2
deben notarse los subíndices de Xi2 : n-1, 1-α/2 para el lado izquierdo del
intervalo y n-1, α/2 para el lado derecho. Esto se debe a que la distribución Xi2 no
es simétrica con respecto al 0 como lo son las distribuciones normal estandarizada
y la distribución t, pues debido a que se trata de valores cuadráticos, todos son
positivos y por las mismas razones el valor mínimo y máximo del intervalo no son
simetricamente proporcionales con respecto al valor de s2, a diferencia de lo que
ocurre con las otras distribuciones cuyos intervalos de confianza si son simétricos
y proporcionales al valor de x.

Imaginemos que se mide la presión arterial en 10
personas por dos médicos diferentes y se utilizan las diferencias para ver la
variabilidad que existe entre los dos observadores (variabilidad interobservador).
Los valores encontrados y las diferencias están en la siguiente tabla:
Paciente Médico 1 Médico 2 Diferencia

1 194 200 -6
2 126 123 +3
3 130 128 +2
4 98 101 -3
5 136 135 +1
6 145 145 0
7 110 111 -1
8 108 107 +1
9 102 99 +3
10 126 128 -2
Promedio de las -2 / 10 = - 0.2
diferencias:
El promedio obtenido de las diferencias interobservador fue de -0.2, vamos ahora

a calcula la varianza de nuestra muestra:
∑ (X i − X )2
[ −6 − ( −.2)]2 + [3 − ( −.2)]2 + ... + [ −2 − ( −.2)]2 5.82 + 3.2 2 + ... + 1.82 73.56
s =
2 i =1
= = = = 8.1733
n −1 10 − 1 9 9
Ahora vamos a calcular el intervalo al 95% de confianza para nuestra varianza

poblacional σ2 (por lo tanto α = 0.05 y α/2 = 0.025) en base a nuestra varianza
muestral s2 = 8.1733
⎡ ( n − 1) s 2 ⎤
, ( n − 1) s
2
⎢ 2 2 ⎥ = ⎡⎣ 9 s 2 / X 92, 0 .9 7 5 , 9 s 2 / X 92, 0 .0 2 5 ⎤⎦ =
⎣ X n − 1 ,1 − α / 2 X n − 1, α / 2 ⎦
[9 (8 .1 7 3 3 ) / 1 9 .0 2 , 9 (8 .1 7 3 3 ) / 2 .7 0 ] = (3 .8 6 7 4 , 2 7 .2 4 4 3 )
Los valores de X n2−1,1−α /2 = 19.02 y de X n2−1,α /2 = 2.70 fueron buscados en las

tablas de Xi cuadrada.
De manera similar, un intervalo al 95% de confianza para nuestra desviación

estándar poblacional σ está dado por: ( 3.8674, 27.2443) = (1.9665,5.2196)
Las tablas de la distribución X2n-1 :
Al igual que ocurre con la distribución t de Student, la distribución de

probabilidad de la función de densidad X2n-1 (x) está dada por la expresión:
Pr(X2n-1 < x ), en donde el subíndice n-1 representa, en este caso, los grados de
libertad (que también se expresa con frecuencia como k ó n simplemente)
Para el cálculo de esta función de densidad existen distintos tipos de Tabla de

distribución X2n-1 en la que para diferentes valores de n ó n-1 (grados de
libertad) y de x (que viene a ser la fracción de la desviación estándar hacia uno y
otro lado de la curva) se puede buscar su probabilidad acumulada p o Pr. La tabla
de distribución para el cálculo de la probabilidad tiene dos márgenes, el superior
en donde están estipulados los grados de libertad (denotados por k) y el margen
lateral izquierdo en donde está el valor de x; para acceder a ellas utilizar este
vínculo .
Ejemplo:
¿Cuál es la distribución de la probabilidad para X2k con 4 grados de libertad de que

x sea menor de 1.2 ?
En lenguaje matemático sería ¿Cuál es Pr(X2k < x) en este caso, Pr(X24 < 1.2) ?
Solución: En la tabla de distribución (directa) de X2k buscamos en las columnas, la

correspondiente a los 4 grados de libertad y en el margen izquierdo, la fila
correspondiente al valor de x = 1.2 y vemos que el resultado es: Pr(X24 < 1.2) =
0.1219
En la tabla directa podemos encontrar la probabilidad para Pr(X2k < x) lo que en

imágenes estaría representado por:
Pero ¿qué hacemos cuando se trata de valores de Pr(X2k > x) (mayores de x)?
En ese caso y al igual que como lo hicimos con la distribución normal y la

distribución t de Student, partimos de la base de que: Pr(X2k < x) + Pr(X2k > x) = 1
lo que en imágenes estaría representado por:
A partir de Pr(X2k < x) + Pr(X2k > x) = 1
despejamos Pr(X2k > x) = 1- Pr(X2k < x)
Ejemplo: ¿Cuál es la distribución de la probabilidad para X2k con 4 grados de

libertad de que x sea mayor de 1.2 ?
En lenguaje matemático: ¿Cuál es Pr(X2k > x) en este caso, Pr(X24 > 1.2) ?
Solución: Pr(X2k > x) = 1- Pr(X2k < x); por tanto Pr(X24 > 1.2) = 1- Pr(X24 < 1.2)
entonces Pr(X24 > 1.2) = 1- 0.1219 = 0.8781
¿Qué hacemos cuando la variable x es mayor que x1 pero menor que x2 ?.
En imágenes sería:
Expresado matemáticamente escribimos: Pr(x1 < X2k < x2), siendo x1 < x2 . Pues,
al igual que lo hicimos con las distribución t de Student, tenemos que:
Pr(x1 < X2k < x2) = Pr(X2k < x2) - Pr(X2k < x1)
Ejemplo: ¿Cual es la probabilidad de que una variable con distribución X2k con 8
grados de libertad se encuentre entre 3.4 y 5.6 ?
Es decir: Pr(x1 < X2k < x2) = Pr(3.4 < X28 < 5.6) = Pr(X2k < 5.6) - Pr(X28 < 3.4)
y en este caso: Pr(X28 < 5.6) = 0.308063 y Pr(X28 < 3.4) = 0.093189 entonces:
Pr(3.4 < X28 < 5.6) = 0.308063 – 0.093189 = 0.214874

La interpolación lineal:
La función chi-cuadrado es continua para x mayor que cero, pero en la tabla sólo
se presentan algunos de sus valores, para calcular los valores no recogidos en la
tabla, al igual que lo hicimos para la distribución t de Student, podemos emplear
la Interpolación lineal. Para una explicación mayor referirse a la pagina 18 de
este documento.
( x − x1 ) ( y2 − y1 )
La expresión: y= ( y2 − y1 ) + y1 ó y= ( x − x1 ) + y1
( x2 − x1 ) ( x2 − x1 )
nos permite calcular los valores no contenidos en la tabla, pero siempre añade un
cierto error cuando se substituye la función y = f(x) por la ecuación de la recta que
pasa entre dos puntos conocidos y = r(x), por ello es conveniente que los puntos
x1 y x2 estén lo más próximos posible.
Nota importante: Los valores de xi corresponden a los valores de la variable

buscada (que vendrían a ser la proporción de la desviación estándar que
deseamos evaluar) y los valores de yi corresponden a la probabilidad acumulada
que buscamos en la tabla.
Ejemplo: ¿Cual es la probabilidad de una distribución chi-cuadrado de 5 grados de

libertad, de que x sea menor que 1.75 ; es decir: Pr(X25 < 1.75)?
En la tabla no está el valor para x = 1.75 y no podemos calcular entonces, de

manera directa, Pr(X25 < 1.75), pero si están los valores para Pr(X25 < 1.6) =
0.098751 y para Pr(X25 < 1.8) = 0.123932 , de ahí, substituyendo en la fórmula de
la interpolación lineal queda:
( y2 − y1 ) 0.123932 − 0.098751
y= ( x − x1 ) + y1 = (1.75 − 1.6) + 0.098751
( x2 − x1 ) 1.8 − 1.6
0.025181
y= (0.15) + 0.098751 = 0.0188857 + 0.098751 = 0.1176367
0.2
Entonces: Pr(X25 < 1.75) = 0.1176367
La tabla INVERSA de la distribución de X2k:
Esta es la tabla más frecuentemente utilizada sobre todo cuando se hacen

pruebas de hipótesis.
Dada la expresión: Pr(X2k < x) = p y conociendo los valores de k y p se pretende

obtener el valor de x, de forma inversa a lo que hemos estado haciendo.
En este caso la pregunta es: Para una distribución X2k de k grados de libertad
¿Cuál es el valor de x que deja a su izquierda una probabilidad (o que tiene una
probabilidad acumulada) p ?
En la tabla INVERSA de la distribución X2k tenemos en el margen superior las

probabilidades p que determinan cada columna, en el margen de la izquierda los
grados de libertad k que determinan las filas, donde se cruzan la fila y la columna
correspondientes está el valor de x que en una función chi-cuadrado de k grados
de libertad, deja a su izquierda o tiene una probabilidad acumulada p.
Ejemplo: ¿Cual es el valor de x, de una distribución chi-cuadrado de 6 grados de

libertad, que deja a su izquierda una probabilidad o tiene una probabilidad
acumulada del 80%; es decir: Pr(X26 < x) = 0.80 ?
Solución: Consultando la tabla INVERSA obtenemos el valor: x = 8.558
Cálculo de la probabilidad acumulada utilizando la tabla INVERSA:
En la tabla de distribución INVERSA de X2k también se puede calcular la

probabilidad conociendo el valor de x y los grados de libertad k, simplemente
buscando el valor de x en el cuerpo de la tabla dentro del renglón (fila)
correspondiente a los grados de libertad y viendo el valor de p en el margen
superior. Sin embargo los valores de p en el margen superior, que encabezan
cada una de las columnas, van desde 0.01 hasta 0.99 en incrementos de 0.05;
pero con frecuencia ocurre que deseamos buscar un valor de x que no está en las
tablas; en ese caso, usamos la interpolación lineal. Para acceder a la tabla seguir
el vínculo
Ejemplo: ¿Cuál es la distribución de probabilidad de chi-cuadrado de 4 grados de

libertad de que x < 1,2 ? , es decir, ¿Cuál es Pr(X24 < 1.2) ?
Solución: El valor 1.2 correspondiente a 4 grados de libertad, no está en las tablas,

pero si están los valores de 1.064 que corresponden a una probabilidad de 0.10 y
el valor de 1.649 que corresponde a una probabilidad de 0.20, entonces usando la
interpolación lineal nos queda:
k\P 0,01 0,05 0,10 0,20 0,25
1 0,000 0,004 0,016 0,064 0,102

2 0,020 0,103 0,211 0,446 0,575
3 0,115 0,352 0,584 1,005 1,213
4 0,297 0,711 1,064 1,649 1,923
( y2 − y1 ) 0.2 − 0.1
y= ( x − x1 ) + y1 = (1.2 − 1.064) + 0.1
( x2 − x1 ) 1.649 − 1.064
0.1
y= (0.136) + 0.1 = 0.1709 × 0.136 + 0.1 = 0.1232
0.585
Entonces Pr ( X24 < 1.2 ) = 0.1232
Nota: Cuando el valore de k (grados de libertad) es muy grande, la distribución de

la probabilidad para una distribución X2k se puede aproximar por medio de las
tablas de distribución normal pues hay que tener presente, que al igual que ocurre
con la distribución t de Student el límite de la distribución cuando los grados de
libertad son muy altos (por lo general por arriba de 200) y tienden a infinito, es
precisamente la distribución normal de media k y varianza 2k.
Lim
X k2 ( x) = N ( k , ( x)
Dicho matemáticamente: k →∞ 2k ) y en este caso
pueden obtenerse valores Z tomando en cuenta que la media de la distribución es

k y la desviación estándar √2k y utilizar la tabla de distribución normal
estandarizada.
Estimación para la Distribución Binomial.
Estimación Puntual: Si recordamos, una distribución binomial se forma por una

variable aleatoria Xi que toma el valor de 1 con una probabilidad p y el valor 0 con
una probabilidad q = 1 – p . Este tipo de variable aleatoria se define como ensayo
Bernoulli el cual es un caso especial de la variable aleatoria binomial en donde el
tamaño de la muestra: n = 1.
Entonces, sea
X = ∑ Xi , en donde Xi = 1. Es decir que X representa el
i =1
número de observaciones en las que se produjo el evento de interés entre el total
de observaciones que conforman la muestra (n), de tal forma que cada Xi
corresponde a un ensayo Bernoulli independiente del resto en donde si se produjo
el evento (por ejemplo una enfermedad).
La variable X es entonces una variable aleatoria binomial con parámetros n

(número total de observaciones en la muestra) y p (proporción poblacional) ya
que representa el número de eventos positivos (o “exitosos”) en n ensayos
independientes. De ahí que su valor esperado sea E(X) = np y su varianza Var(X)

= npq.
La variable ^p representa la proporción de eventos “exitosos” de nuestra muestra,

de donde:
1 n X
pˆ = ∑ X i = y ya que ^p es una media muestral podemos
n i =1 n
decir que su valor esperado E ( p ˆ ) = E ( X i ) ≡ μ = p . Dicho en palabras:

El valor esperado de la proporción muestral es igual al valor esperado de cada una
de los eventos “exitosos”, es por completo igual a la media poblacional
(obviamente de una distribució binomial) e igual a la proporción poblacional
(análogamente a lo que ocurre con la media muestral en donde E(x) = μ ).
Por otra parte, si recordamos lo ya visto en relación a la distribución de la media

muestral nos quedará claro que la varianza de la media muestral es
Var(x) = σ2/n y que lo que correspondería a su “desviación estándar” es llamada
error estándar representado por se(x) = σ/√n, bien, pues en virtud de que ^p es
en realidad una media muestral tenemos que:
σ2 pq pq
Var ( pˆ ) = = y se ( pˆ ) =
n n n
Por tanto, para cualquier muestra de tamaño n, la proporción de eventos en la
muestra ^p es un estimador no sesgado de la proporción de eventos en la
población p. El error estándar de esta proporción está dado por: pq / n y
estimado por ˆˆ/n .

pq
Ejemplo: Supongamos que se llevan a cabo votaciones para elegir al alcalde de la

delegación Iztapalapa y el universo de votantes efectivos (que si votaron) está
conformado por 50,000 personas. El actual partido en el gobierno le encarga a una
empresa que haga una “encuesta de salida” para estimar la proporción de
personas que votaron por el PAN.
Supongamos también que se logra colectar una muestra de 5,000 votantes que sí
desean cooperar con la “encuesta de salida”, entonces: dejaremos que la variable
aleatoria Xi represente la voluntad del votante, en donde si la iava persona votó por
el PAN Xi = 1 y si votó por cualquier otro partido Xi = 0, siendo i = 1, 2, 3, ..., 5000
la etiqueta que identifica a la 1ª, 2ª, 3ª, ..., 5000ava persona respectivamente.
La proporción real de personas que votaron por el PAN en el universo de votantes

efectivos de la delegación Iztapalapa está representado por p, ¿cómo puede este
parámetro ser estimado?
De acuerdo a lo dicho con anterioridad:
Sea X = ∑ X i = número de personas que votaron por el PAN entre el total

i =1
de votantes. El parámetro p = proporción poblacional de eventos, sólo puede ser
estimado a través de ^p = proporción muestral de eventos, que en nuestro
ejemplo corresponde a ^p = proporción de personas que votaron por el PAN en la
encuesta de salida.
Supongamos que al final de la encuesta nos encontramos que solamente 1000

personas de las 5000 encuestadas votaron por el PAN, entonces:
1 n X 1000
pˆ = ∑ X i = = = 0.2 es decir el 20%
n i =1 n 5000
Ahora que tenemos la proporción muestral calculemos la varianza y el error
estándar de nuestra muestra:
σ2 pq 0.2(1 − 0.2) 0.2 × 0.8 0.16

Var ( pˆ ) = = = = = = 0.000032
n n 5000 5000 5000
pq 0.16
se ( pˆ ) = = = 0.0056568
n 5000
Estimación del Intervalo para el parámetro p, Método de la Teoría Normal:
Para poder estimar el intervalo por el método de la teoría normal, debemos asumir
que la aproximación normal a la distribución binomial es válida, de tal manera que
el número de eventos, representados por X, observados a partir de n elementos,
estarán normalmente distribuidos con una media np y una varianza npq; o
correspondientemente, la proporción de eventos observados a partir de n
elementos = ^p = X/n, está normalmente distribuida con una media p y una
varianza pq/n.

Ej y Prob Bioestad Lección 5

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ej y Prob Bioestad Lección 5

Cargado por

Copyright:

Formatos disponibles

Autor: Jorge Maza V Apuntes de Bioestadística.

Hasta este momento hemos estado viendo distribuciones discretas y continuas en

La estadística inferencial se divide en dos grandes áreas: la estimación que se

Para que se entienda lo anterior pongamos un ejemplo. Imaginemos que tomamos

Cuando estamos tratando de obtener números específicos como parámetros

Relaciones entre la Población de estudio y la Muestra.

Una Muestra Aleatoria es la selección de algunos miembros de una población

La Población de Estudio, de Referencia o Blanco es el grupo que se desea

Un Número Aleatorio (o Dígito Aleatorio) es una variable aleatoria X que asume

1.- Cada dígito 0, 1, 2, ..., 9 tiene las mismas probabilidades de ocurrir

Una selección aleatoria es la que se lleva a cabo en una población ya existente

Un ensayo clínico aleatorizado es un tipo de investigación diseñado para

La aleatorización en bloques es muy usada en los ensayos clínicos para

tratamientos), los bloques serían de tamaño kn y se asignarían aletoriamente n

En algunos estudios clínicos se utiliza el procedimiento denominado

Estimación de la Media de una Distribución: Regresando al problema de cómo

Estimación puntual de la media poblacional: Un estimador natural para la

Para que la media muestral ( x ) pueda ser representativa de la media poblacional

La distribución muestral de x es la distribución de los valores de x (x 1, x 2, x 3,

Debido a esta propiedad se considera a la media muestral x un estimador no

El Error Estandar de la Media o simplemente Error Estandar:

Si recordamos, cuando hablábamos de combinaciones lineales ( Lección 4) el

E ( L) = E (c1 X 1 + ... + cn X n ) = c1 E ( X 1 ) + ... + cn E ( X n ) que en palabras dice:

El valor esperado de la suma de n variables aleatorias es igual a la suma de los n

De manera análoga ocurre con la varianza de una combinación lineal:

Var ( L) = Var (c1 X 1 + ... + cn X n ) = c12Var ( X 1 ) + ... + cn2Var ( X n ) que dice:

La varianza de la suma de n variables aleatorias es igual a la suma de sus

Varianza de la Media Muestral sea:

y como Var(xi) = σ2 entonces:

El Error Estandar de la Media es, entonces, una medida cuantitativa de la

Ejemplo tomado del Rosner:

Problema: Existe la teoría de que cuando una mujer ovula su temperatura

x = (36.2°+ 36.3°+ 36.3°+ ... + 36.8°) / 10 = 36.47° C

La varianza de nuestra muestra está dada por:

La desviación estándar de nuestra muestra está dada por:

S ( x) = Var ( x) = 0.0321 = 0.1791

El error estándar de la media o si se le quiere decir, la desviación estándar de la

El Teorema del Límite Central:

Si la distribución de valores subyacente de una muestra es normal se puede

Este teorema se puede expresar diciendo:

σ2, entonces para una n grande, X ∼ N ( , μ σ2 n) (lo que significa que la

Ejemplo tomado del Rosner:

Solución: Como se puede apreciar, en una muestra de sólo 10 pacientes, uno no

⎛ 3,376 − 3000 ⎞ ⎛ 2, 626 − 3000 ⎞

Estimación de Intervalos con Varianza Conocida:

Con frecuencia es necesario obtener un intervalo de estimaciones plausibles de la

Entonces, si μ y σ2 se conocen, el comportamiento de un conjunto de medias

matemáticamente: Pr ( μ − 1.96σ / n < x < μ + 1.96σ / n ) = .95 y

respectivamente también Pr ( x − 1.96σ / n < μ < x + 1.96σ / n ) = .95

Un Intervalo de Confianza (IC) 95% para μ cuando σ2 se conoce, está dado

( X − 1.96σ n , X + 1.96σ n) ó ( X ± 1.96σ n)

Un Intervalo con el 95% de Confianza significa que en el 95% de todos los

Ejemplo tomado del Rosner: Del problema de la temperatura corporal basal de

x ± 1.96σ / n = 36.47° ± 1.96(.18) / 10 = 36.47° ± 0.11° = (36.36°,36.58°)

I.P*: El α representa la parte que estamos dispuestos a perder en la campana de

Entonces de manera general un Intervalo con un 100% x (1-α) de confianza

Un IC 100% x (1-α) para μ está dado por:

Si nos fijamos en la fórmula de arriba nos percataremos que la amplitud de un

Estos son los Factores que afectan la amplitud de un Intervalo de Confianza:

n. Conforme el tamaño de la muestra (n) aumenta, la amplitud del IC disminuye

σ. Conforme la desviación estándar (σ), que refleja la variabilidad de las

α. Conforme la confianza deseada aumente (α desciende), la amplitud del

Para podernos percatar de esto, vamos a utilizar el mismo ejemplo de la