Está en la página 1de 8

Distribución t-student

Samuel Martı́nez
February 15, 2021

1 Introducción
William S. Gosset
¿Qué podrı́a explicar que el jefe de producción de la famosa fábrica de cerveza Guinness de Dublı́n,
Irlanda, no sólo utilizara la estadı́stica sino que además inventara nuevos métodos estadı́sticos? El anhelo
de mejorar la calidad de la cerveza, por supuesto.
William S. Gosset (1876-1937) empezó a trabajar en 1899 como técnico en la fábrica de cerveza Guinness,
justo después de licenciarse en la Oxford University. Muy pronto empezó a realizar experimentos y se dio
cuenta de la necesidad de utilizar la estadı́stica para comprender los resultados de éstos. ¿Cuáles son las
mejores variedades de cebada y de lúpulo para producir cerveza? ¿Cómo se tienen que cultivar? ¿Cómo se
deben secar y almacenar? Los resultados de los experimentos de campo, como puedes adivinar, variaban.
La inferencia estadı́stica permite descubrir la pauta que esta variación deja oculta. A principios de siglo,
los métodos de inferencia se reducı́an a una versión de las pruebas z para las medias (incluso los intervalos
de confianza eran desconocidos). En su trabajo, Gosset se enfrentó con el problema que hemos señalado
al utilizar el estadı́stico z: no conocı́a la desviación tı́pica poblacional σ. Es más, en los experimentos de
campo se obtenı́an pocas observaciones, por lo que la simple substitución de σ por s en el estadı́stico z y
la suposición de que el resultado era aproximadamente normal, no daban unas conclusiones suficientemente
precisas. En consecuencia, Gosset se planteó la pregunta clave, ¿cuál es la distribución exacta del estadı́stico
(x − µ)/s?
En 1907, Gosset ya era el responsable de la investigación que se desarrollaba en la cervecera Guinness.
Además, Gosset también habı́a encontrado la respuesta a la pregunta anterior y habı́a calculado una tabla de
números crı́ticos de su nueva distribución, a la que llamamos distribución t. La nueva prueba t identificó la
mejor variedad de cebada y Guinness, rápidamente, adquirió toda la semilla disponible. Guinness permitió
que publicara sus descubrimientos, pero no con su propio nombre. Gosset utilizó el nombre “Student”, y, en
su honor, la prueba t es llamada a veces “t de Student” [2]

1
La distribución t está dada por la expresión:
 
n+1 n+1
Γ  2 −

2 t 2
f (t; n) = √ n 1 + (1)
nπΓ n
2
donde el parámetro n es un entero positivo y la variable t es una número real. La función Γ es la función
gamma usual.[3]
La siguiente figura muestra la distribución t para diferentes valores de n con media cero y desviación
muestral uno.

0.4 La normal
mu=0 y sigma=1
Distribución t
mu=0, s=1 y n=10
mu=0, s=1 y n=3
0.3 mu=0, s=1 y n=2
mu=0, s=1 y n=1

0.2

0.1

0.0

−4 −2 0 2 4

• Nuestros datos son una muestra aleatoria simple de tamaño n de una población.
• Las observaciones proceden de una población que tiene una distribución normal con media µ y desviación
tı́pica σ. Los parámetros µ y σ son desconocidos.

• En las pruebas de hipótesis se hace un supuesto sobre la media poblacional. El inconveniente radica
en que generalmente la desviación poblacional es desconocida. En la práctia, σ es desconocida.

Page 2
En la práctica, debemos utilizar la desviación de la muestra s. El estadı́stico resultante tiene una
distribución t.
El estadı́stico t para una muestra simple de tamaño n de una población normal con media µ y desviación
tı́pica σ es
x−µ
t= r (2)
s2
n
donde la distribución t tiene n − 1 grados de libertad.
Para analizar muestras de poblaciones normales con σ desconocida, basta con sustituir por la desviación
tı́pica de la muestra s. Los cálculos y los procedimientos de la distribución t son similares a los procedimientos
de la distribución normal.
El intervalo de confianza para estimar la media es:
s
x ± t(α;n−1) √ (3)
n
donde:
• x es la media muestral
• t(α;n−1) es el cuantil asociado a la distribución t-student.
• s es la desviación muestral.
• n es el tamaño de muestra.

1.1 Ejemplos
1. Un fabricante de pequeños electrodomésticos contrata una empresa de investigación de mercados para
estimar las ventas de sus productos al por menor. Dicha empresa obtiene la información a partir de
una muestra de tiendas minoristas. Este mes, una muestra aleatoria simple de 75 tiendas pone de
manifiesto que este tipo de establecimientos vendieron como media 24 batidoras de este fabricante, con
una desviación tı́pica de 11. Calcula un intervalo de confianza del 95% para la media de las batidoras
vendidas en todas las tiendas.
Desarrollo: Se tiene que
• x = 24
• n = 75
• s = 11
• Confianza 95%

11
24±1.9925 ∗ √
75
[21.46;26.53]

La media de las batidoras vendidas se encuentra entre 21.46 y 26.53 con una confianza del 95%
2. A 24 estudiantes universitarios, que participan voluntariamente en un estudio, cuyas edades se ubican
entre 20 y 21 años, se les pide dormir únicamente 4 horas al dı́a durante una semana; posteriormente
se registra el promedio de su metabolismo basal (calorı́as por hora), obteniendo los siguientes datos:
35.30, 35.90, 37.20, 33, 33.7, 36, 35, 33.3, 33.6, 37.9, 35.6, 29, 33.7, 35.7, 32.5, 34, 31.8, 35, 34.6, 34.6,
33.5, 33.6, 31.5 y 33.8. Construye un intervalo de confianza al 99% para el promedio del metabolismo
de los estudiantes.
Desarrollo: Se tiene que

Page 3
• x = 34.1583
• n = 24
• s = 1.89895
• Confianza 99%

1.89895
34.1583±2.8073 ∗ √
24
[33.0701;35.2465]

El verdadero promedio del metabolismo de los estudiantes se encuentra entre 33.0701 y 35.2465 con
una confianza del 99%
3. A 24 estudiantes universitarios, que participan voluntariamente en un estudio, cuyas edades se ubican
entre 20 y 21 años, se les pide dormir únicamente 4 horas al dı́a durante una semana; posteriormente
se registra el promedio de su metabolismo basal (calorı́as por hora), obteniendo los siguientes datos:
35.30, 35.90, 37.20, 33, 33.7, 36, 35, 33.3, 33.6, 37.9, 35.6, 29, 33.7, 35.7, 32.5, 34, 31.8, 35, 34.6, 34.6,
33.5, 33.6, 31.5 y 33.8. Si la media poblacional es µ = 35 calorı́as por hora. ¿existe evidencia de que
la media del metabolismo de los estudiantes es diferente?. Comprueba tus hipótesis con α = 0.08.
Encuentra el valor p.
Desarrollo:

(a) • H0 : µ = 35
• Ha : µ 6= 35
34, 1583 − 35
(b) tcalculado = √ = −2.171
1, 89895/ 24
(c) tα = 1.7139
(d) |tcalculado | > |tcritico |, Rechace H0 . Existe evidencia estadı́sticamente significativa de que la media
del metabolismo de los estudiantes es diferente.

4. Una adecuada ingesta de proteı́nas y vitaminas es fundamental para el desarrollo de las capacidades
cognitivas en el desarrollo de los infantes. La leche se considera una buena fuente de vitaminas y
proteı́nas para los niños. Por ello el departamento de Salud de los EEUU se encuentra interesado en
conocer los hábitos de consumo de sus ciudadanos. El consumo anual per cápita de leche es 21.6 galones
(Statistical Abstract of the United States: 2006). Usted cree que en el oeste medio el consumo de leche
es mayor y desea fundamentar su opinión. En una muestra de 16 personas de Webster City, pueblo
del oeste medio, la media muestral del consumo anual fue de 24.1 galones y la desviación estándar es
4.8. Elabore una prueba de hipótesis que se pueda usar para determinar si el consumo medio anual en
Webster City es mayor que la media nacional. Con α = 0.05, ¿cuál es su conclusión?. Encuentra el
valor p.
Desarrollo:

(a) • H0 : µ ≤ 21.6
• Ha : µ > 21.6
24.1 − 21.6
(b) tcalculado = √ = 2.083333
4.8/ 16
(c) tα = 1.7531
(d) |tcalculado | > |tcritico |, Rechace H0 . Existe evidencia estadı́sticamente significativa de que el
consumo de leche en el oeste es mayor a 21.6 galones.

Page 4
1.2 Ejercicios
1. Usted acaba de ser contratado como asistente de gerencia de un aeropuerto. En su primera asignación
laboral, usted necesita vigilar el tiempo que requieren los operadores de vuelo para aterrizar una
aeronave, que se supone es un promedio de 5 minutos. Su supervisor inmediato se preocupa porque
ante una falta de personal, se requirió el uso de operadores que no habı́an terminado su entrenamiento,
esto a incrementado el tiempo que tarda en aterrizar una aeronave a más de 5 minutos. Usted toma
una muestra de 20 trabajadores y halla una media que tardan las aeronaves en aterrizar en 7.3 minutos
y s = 1.9 minutos. ¿A un valor del α = 0.04, qué le podrı́a informar a su supervisor?
2. Everitt, in Hand et al., 1994, reported on several different therapies as treatments for anorexia. There
were 29 girls in a cognitive-behavior therapy condition, and they were weighed before and after treat-
ment. The weight gains of the girls, in pounds, are given below. The scores were obtained by subtracting
the Before score from the After score, so that a negative difference represents weight loss, and a positive
difference represents a gain. [1]

1.7 0.7 -0.1 -0.7 -3.5 14.9 3.5 17.1 -7.6 1.6 11.7
6.1 1.1 -4.0 -0.9 -9.1 2.1 -1.4 1.4 -0.3 -3.7 -0.8
2.4 12.6 1.9 3.9 0.1 15.4 -0.7

(a) Did the girls in this group gain a statistically significant amount of weight?
(b) Compute 95% confidence limits on the weight gain.

3. Se aplica una prueba de ansiedad a 25 estudiantes quienes obtienen una calificación promedio de 62.1
con una desviación estándar de 5.83. Se sabe que el valor correcto de la prueba debe ser mayor a
60. ¿Existe suficiente evidencia para comprobar que no hay problemas de autoestima en el grupo
seleccionado?. Considera un nivel de significación de 0.05

4. Katz, Lautenschlager, Blackburn, and Harris (1990) examined the performance of 28 students, who
answered multiple choice items on the SAT without having read the passages to which the items
referred. The mean score (out of 100) was 46.6, with a standard deviation of 6.8. [1] Random guessing
would have been expected to result in 20 correct answers.

(a) Were these students responding at better-than-chance levels?


(b) If performance is statistically significantly better than chance, does it mean that the SAT test is
not a valid predictor of future college performance?

5. El envenenamiento con el pesticida DDT causa temblores y convulsiones. [2] En un estudio sobre
envenenamiento con DDT , unos investigadores suministraron una determinada cantidad de DDT a un
grupo de ratas. Más tarde se tomaron datos sobre sus sistemas nerviosos para averiguar cómo causa
el envenenamiento con DDT esos temblores. Una variable importante era el periodo absolutamente
refractario, es decir, el tiempo que necesita un nervio para recuperarse después de un estı́mulo. Este
periodo, normalmente varı́a. Las mediciones hechas en cuatro ratas dieron los siguientes datos; 1.6,
1.7, 1.8 y 1.9. Supón que se sabe que la media del periodo absolutamente refractario de los nervios
de las ratas no envenenadas es de 1.3 milisegundos. El envenenamiento con DDT deberı́a retrasar la
recuperación del nervio, y por tanto, aumentar este periodo. A partir de los datos dados en el ejercicios
anterior, compruebe la anterior hipótesis con α = 0.03.

Page 5
6. El nivel de determinadas sustancias en la sangre de los enfermos del riñon sometidos a diálisis tiene
que ser vigilado, ya que la insuficiencia renal y la diálisis pueden causar problemas de nutrición. Una
investigadora analizó la sangre de varios pacientes sometidos a diálisis en seis visitas consecutivas. Una
de las variables que se midió fue el nivel de fosfato en la sangre. El nivel de fosfato de un individuo
tiende a variar normalmente a lo largo del tiempo. Los datos de uno de los pacientes, en miligramos
de fosfato por decilitro de sangre, son: 5.6, 5.1, 4.6, 4.8, 5.7 y 6.4. Supón que se sabe que la media del
nivel de fosfato en la población es de 5.5, ¿para un nivel de significación del 0.05 existe evidencia de
que el nivel promedio de fosfato es menor en el grupo de pacientes?
7. Compas and others (1994) [1] were surprised to find that young children under stress actually report
fewer symptoms of anxiety and depression than we would expect. But they also noticed that their
scores on a Lie scale (a measure of the tendency to give socially desirable answers) were higher than
expected. The population mean for the Lie scale on the Children’s Manifest Anxiety Scale (Reynolds
and Richmond, 1978) is known to be 3.87. For a sample of 36 children under stress, Compas et al.
found a sample mean of 4.39, with a standard deviation of 2.61.

(a) What can you conclude from the data?


(b) Calculate the 95% confidence limits for µ

8. Se está valorando la regeneración de cartı́lago en rodilla que consigue un nuevo tratamiento aplicado
sobre enfermos con osteoartritis. El estudio ha mostrado los siguientes valores sobre la regeneración
de cartı́lago (en cm2 ) para 10 pacientes: 1.23, 1.53, 0.98, 0.56, 1.35, 1.45, 1.11, 1.01, 1.66, 0.78. El
tratamiento estándar utilizado los últimos años conseguı́a una regeneración media de cartı́lago en este
tipo de enfermos de 1 cm. ¿Pueden concluir estos investigadores que la regeneración media con el
nuevo tratamiento es significativamente superior a la obtenida por el tratamiento estándar (1 cm)?.
Plantea y resuelve el contraste de hipótesis y explica tus conclusiones. Utiliza un nivel de significación
del α = 0.05.
9. En un proyecto que pretende estudiar a los enfermos de Parkinson en estado 2, se tiene interés en
estimar la longitud media de paso de estos enfermos tras la aplicación de tratamiento fisioterapeútico.
Para valorar la eficacia del tratamiento se ha recogido una muestra de 13 de estos enfermos a los que
se les ha estimado, tras la aplicación de tratamiento fisioterapeútico, la longitud de paso obteniendo
los siguientes resultados (en cm):41.9, 55.2, 61.8, 47.9, 49.5, 52.4, 54.7, 38.8, 47.5, 50.9, 50.8, 61.7 y
55.6. ¿Pueden concluir estos investigadores que la longitud de paso media en personas con Parkinson
(en estado 2) que reciben tratamiento fisioterapeútico es significativamente mayor de 45.9 cm? (lo
comparamos con este valor porque la longitud media de paso en enfermos que no reciben tratamiento
es de 45.9 cm). Plantea y resuelve el contraste de hipótesis adecuado para responder a esta pregunta
y explica tus conclusiones.
10. Un grupo de investigación tiene interés en estimar la edad media a la que aparecen determinados
trastornos relacionados con la Diabetes Tipo II. Para ello ha seleccionado las historias clı́nicas de
algunos de estos pacientes diagnosticados con este problema y ha obtenido sus edades de diagnóstico
que son: 58, 62, 64, 67, 69, 70, 72, 73, 73, 75 y 80. Plantea el contraste de hipótesis adecuado
para contrastar si la edad media de diagnóstico es significativamente diferente de 65 años, con una
significatividad de α = 0.05.

Page 6
11. En un experimento comparativo aleatorizado sobre el efecto del calcio de la dieta sobre la presión
sanguı́nea, unos investiga dores dividieron al azar a 54 hombres sanos en dos grupos. Uno recibió
calcio; el otro, un placebo. Al comienzo del estudio, los investigadores midieron una serie de variables
en los sujetos. El informe del estudio da x = 114, 9 y s = 9, 3 para la presión sanguı́nea sistólica de los
27 sujetos del grupo placebo. Calcula un intervalo de confianza del 95% para la media de la presión
sanguı́nea de la población de la que proceden estos sujetos.

12. La prueba ARSMA (Acculturation Rating Scale for Mexican Americans) mide el grado de adopción
de la cultura anglosajona por parte de los estadounidenses de origen mexicano. Durante la etapa de
elaboración del ARSMA, se sometió a la prueba a un grupo de 17 mexicanos. Sus puntuaciones, en un
intervalo posible de 1,00 a 5,00, mostraron una distribució normal con x = 1, 67 y s = 0, 25. Debido a
que resultados bajos indicarı́an una fuerte presencia de la cultura mexicana, estos resultados ayudaron
a validar la prueba. Calcula un intervalo de confianza del 95% para la media de los resultados de los
mexicanos en la prueba ARSMA.
13. A 24 estudiantes universitarios, que participan voluntariamente en un estudio, cuyas edades se ubican
entre 20 y 21 años, se les pide dormir únicamente 4 horas al dı́a durante una semana; posteriormente
se registra el promedio de su metabolismo basal (calorı́as por hora), obteniendo los siguientes datos:
35.30, 35.90, 37.20, 33, 33.7, 36, 35, 33.3, 33.6, 37.9, 35.6, 29, 33.7, 35.7, 32.5, 34, 31.8, 35, 34.6, 34.6,
33.5, 33.6, 31.5 y 33.8.

(a) Construye un intervalo de confianza al 95% para el promedio del metabolismo de los estudiantes.
(b) Si la media poblacional es µ = 35 calorı́as por hora. ¿existe evidencia de que la media del
metabolismo de los estudiantes es diferentes?. Comprueba tus hipótesis con α = 0.08

14. Se llevó a cabo un estudio sobre nutrició en un paı́s en desarrollo. Se tomó una muestra aleatoria de
500 adultos de este paı́s y se obtuvo un consumo medio de calorı́as de 1985 con una desviación tı́pica
muestral es de 210. ¿Puede concluirse a partir de estos datos que el consumo medio de calorı́as de la
población adulta de este paı́s es menor que 2000? Para responder a esta pregunta plantea el contraste
de hipótesis correspondiente tomando como nivel de significación α = 0.01.

15. En un proyecto que pretende estudiar a los enfermos de Parkinson en estadı́o 2, se tiene interés en
estimar la longitud media de paso de estos enfermos tras la aplicación de tratamiento fisioterapeéutico.
Para valorar la eficacia del tratamiento se ha recogido una muestra de 13 de estos enfermos a los que se
les ha estimado, tras la aplicación de tratamiento fisioterapeútico, la longitud de paso obteniendo los
siguientes resultados (en cm):41.9, 55.2, 61.8, 47.9, 49.5, 52.4, 54.7, 38.8, 47.5, 50.9, 50.8, 61.7 y 55.6.

(a) ¿Los investigadores pueden concluir que la longitud del paso en personas con Parkinson que
reciben tratamiento fisioterapeútico es signficativamente mayor de 45.9 cm ? Utiliza α = 0.07
(b) Encuentre el intervalo de confianza para la verdadera media de los pasos de los sujetos con un
nivel de confianza del 90%.

16. Es sabido que un gran porcentaje de hemipléjicos padecen dolor de hombro durante los 12 meses sigu-
ientes al ictus. [2] Se desea investigar si una novedosa terapia rehabilitadora, basada en la fisioterapia,
reduce significativamente el tiempo medio de dolor de hombro. Para llevar a cabo el estudio se aplica la
terapia a 8 hemipléjicos, con dolor de hombro, durante el tiempo necesario hasta corregir el problema
de dolor. A continuación aparece el tiempo, en meses, que han recibido la terapia: 5.4, 7.3, 14.5, 8.1,
10, 11.7, 9.2 y 7.4. Plantea el contraste necesario para averiguar si la terapia es efectiva y resuélvelo
utilizando α = 0.05.

Page 7
17. Un grupo de educadores considera que los estudiantes de bachillerato deben dedicar, para rendir
satisfactoriamente, un promedio de 12 horas de estudio a la semana. En una muestra aleatoria de 14
estudiantes de bachillerato de un determinado instituto se han obtenido los datos que ofrece la siguiente
tabla (la variable yi es el tiempo promedio de estudio de los sujetos):

sujeto Y
1 9
2 11
3 7
4 16
5 10
6 8
7 3
8 12
9 6
10 15
11 9
12 5
13 12
14 20

(a) ¿Existe evidencia estadı́stica que el tiempo promedio de estudio de los estudiantes es diferente de
12 horas? Utiliza α = 0.07.
(b) Encuentre el intervalo de confianza para la verdadera media de las horas de estudio de los sujetos
con un nivel de confianza del 92%.

References
[1] D. Howell. Statistical Methods for Psychology. Cengage Learning, 2013.
[2] D. Moore. Estadı́stica Aplicada Básica. Antoni Bosch, 1998.
[3] Mendenhall W. Sheaffer R. Wackerly, D. Estadı́stica matemática con aplicaciones. Cengage Learning,
2010.

Page 8

También podría gustarte